論文の概要: AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis
- arxiv url: http://arxiv.org/abs/2510.24695v1
- Date: Tue, 28 Oct 2025 17:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.322224
- Title: AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis
- Title(参考訳): AgentFrontier: ZPD誘導データ合成によるLDMエージェントの能力フロンティアの拡大
- Authors: Xuanzhong Chen, Zile Qiao, Guoxin Chen, Liangcai Su, Zhen Zhang, Xinyu Wang, Pengjun Xie, Fei Huang, Jingren Zhou, Yong Jiang,
- Abstract要約: 大きな言語モデルエージェントをその能力の最前線でタスクで訓練することは、高度な推論をアンロックする鍵となる。
近縁開発ゾーン(ZPD)の教育理論に着想を得たデータ合成アプローチを導入する。
本稿では,ZPD内に位置する高品質な多分野データを合成する自動パイプラインであるAgentFrontier Engineを提案する。
- 参考スコア(独自算出の注目度): 69.06292316741126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language model agents on tasks at the frontier of their capabilities is key to unlocking advanced reasoning. We introduce a data synthesis approach inspired by the educational theory of the Zone of Proximal Development (ZPD), which defines this frontier as tasks an LLM cannot solve alone but can master with guidance. To operationalize this, we present the AgentFrontier Engine, an automated pipeline that synthesizes high-quality, multidisciplinary data situated precisely within the LLM's ZPD. This engine supports both continued pre-training with knowledge-intensive data and targeted post-training on complex reasoning tasks. From the same framework, we derive the ZPD Exam, a dynamic and automated benchmark designed to evaluate agent capabilities on these frontier tasks. We train AgentFrontier-30B-A3B model on our synthesized data, which achieves state-of-the-art results on demanding benchmarks like Humanity's Last Exam, even surpassing some leading proprietary agents. Our work demonstrates that a ZPD-guided approach to data synthesis offers a scalable and effective path toward building more capable LLM agents.
- Abstract(参考訳): 大きな言語モデルエージェントをその能力の最前線でタスクで訓練することは、高度な推論をアンロックする鍵となる。
本稿では,このフロンティアをLLMが単独では解けないが指導で習得できるタスクとして定義する,ZPDの教育理論に着想を得たデータ合成手法を提案する。
そこで我々は,LLMのZPD内に位置する高品質な多分野データを合成する自動パイプラインであるAgentFrontier Engineを提案する。
このエンジンは、知識集約データによる継続事前学習と、複雑な推論タスクに対する目標後トレーニングの両方をサポートする。
同じフレームワークから、これらのフロンティアタスクにおけるエージェント機能を評価するために設計された動的かつ自動化されたベンチマークであるZPD Examを導出する。
我々は、AgentFrontier-30B-A3Bモデルを合成データ上にトレーニングし、HumanityのLast Examのような要求のあるベンチマークで最先端の結果を得る。
我々の研究は、ZPD誘導によるデータ合成アプローチが、より有能なLCMエージェントを構築するためのスケーラブルで効果的な経路を提供することを示した。
関連論文リスト
- APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training [48.20667772172573]
APTBenchは、現実世界のエージェントタスクと成功した軌道を多重選択やテキスト補完の質問に変換するフレームワークである。
中心となるエージェント能力、例えば計画と行動に焦点を当て、主要なエージェントシナリオ、ソフトウェア工学、深層研究をカバーしている。
既存の汎用ベンチマークと比較すると、APTBenchはモデル下流のパフォーマンスをエージェントとしてより予測的な信号を提供する。
論文 参考訳(メタデータ) (2025-10-28T13:11:22Z) - Tagging the Thought: Unlocking Personalization Reasoning via Reinforcement Learning [28.86134365096663]
個人化推論のための言語モデルの本質的な能力を高める新しいトレーニングフレームワークであるTagPRを紹介する。
我々の手法は最先端の結果を達成し、すべてのタスクでベースモデルに対して平均32.65%の改善を提供する。
論文 参考訳(メタデータ) (2025-09-27T06:03:44Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.31926740841128]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。