論文の概要: Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis
- arxiv url: http://arxiv.org/abs/2602.03279v1
- Date: Tue, 03 Feb 2026 09:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.342692
- Title: Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis
- Title(参考訳): Agentic Proposing: 構成スキル合成による大規模言語モデル推論の強化
- Authors: Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Xuan Ren, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang,
- Abstract要約: Agentic Proposingは、問題合成をゴール駆動シーケンシャルな意思決定プロセスとしてモデル化するフレームワークである。
数学、コーディング、科学にまたがる高精度で検証可能な訓練軌道を生成する。
11,000個の合成軌道で訓練された30Bソルバは、AIME25で91.6%の精度を達成する。
- 参考スコア(独自算出の注目度): 10.951981109673119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancing complex reasoning in large language models relies on high-quality, verifiable datasets, yet human annotation remains cost-prohibitive and difficult to scale. Current synthesis paradigms often face a recurring trade-off: maintaining structural validity typically restricts problem complexity, while relaxing constraints to increase difficulty frequently leads to inconsistent or unsolvable instances. To address this, we propose Agentic Proposing, a framework that models problem synthesis as a goal-driven sequential decision process where a specialized agent dynamically selects and composes modular reasoning skills. Through an iterative workflow of internal reflection and tool-use, we develop the Agentic-Proposer-4B using Multi-Granularity Policy Optimization (MGPO) to generate high-precision, verifiable training trajectories across mathematics, coding, and science. Empirical results demonstrate that downstream solvers trained on agent-synthesized data significantly outperform leading baselines and exhibit robust cross-domain generalization. Notably, a 30B solver trained on only 11,000 synthesized trajectories achieves a state-of-the-art 91.6% accuracy on AIME25, rivaling frontier-scale proprietary models such as GPT-5 and proving that a small volume of high-quality synthetic signals can effectively substitute for massive human-curated datasets.
- Abstract(参考訳): 大規模言語モデルにおける複雑な推論の促進は、高品質で検証可能なデータセットに依存している。
現在の合成パラダイムは、しばしば繰り返し発生するトレードオフに直面している: 構造的妥当性を維持することは、通常、問題の複雑さを制限し、一方、困難を頻繁に増大させるために制約を緩和することは、矛盾または解決不可能なインスタンスにつながる。
そこで本稿では,問題生成を目標駆動型逐次決定プロセスとしてモデル化するフレームワークであるAgentic Proposingを提案する。
内部反射とツール利用の反復的ワークフローを通じて,多角性ポリシー最適化(MGPO)を用いたエージェントプロポーラ4Bを開発し,数学,コーディング,科学をまたいだ高精度で検証可能な学習軌道を生成する。
実験により, エージェント合成データに基づく下流の解法は, 先行ベースラインを著しく上回り, 堅牢なクロスドメイン一般化を示すことを示した。
特に、たった11,000の合成軌道で訓練された30Bソルバは、GPT-5のようなフロンティアスケールのプロプライエタリなモデルに対抗して、最先端の91.6%の精度をAIME25で達成し、少数の高品質な合成信号が、大規模な人為的なデータセットに効果的に代用できることを証明した。
関連論文リスト
- RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis [29.39426376890088]
Agentic Retrieval-Augmented Generation (RAG)は、大規模言語モデルを自律的に計画し、複雑な問題解決のための情報を取得する権限を与える。
本稿では、RAGタスクとロバストエージェントトラジェクトリの構築を自動化するために設計された新しいデータ合成フレームワークであるRAGShaperを紹介する。
論文 参考訳(メタデータ) (2026-01-13T16:25:07Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Modèles de Substitution pour les Modèles à base d'Agents : Enjeux, Méthodes et Applications [0.0]
エージェントベースモデル(ABM)は、局所的な相互作用から生じる創発的な現象を研究するために広く用いられている。
ABMの複雑さは、リアルタイム意思決定と大規模シナリオ分析の可能性を制限する。
これらの制限に対処するため、サロゲートモデルはスパースシミュレーションデータから近似を学習することで効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-17T08:55:33Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization [0.6629765271909505]
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。
このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質に関する洞察も提供することを示唆している。
論文 参考訳(メタデータ) (2024-09-11T15:16:25Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。