論文の概要: Scaling Agents via Continual Pre-training
- arxiv url: http://arxiv.org/abs/2509.13310v1
- Date: Tue, 16 Sep 2025 17:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.219638
- Title: Scaling Agents via Continual Pre-training
- Title(参考訳): 連続事前学習によるエージェントのスケーリング
- Authors: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou,
- Abstract要約: 我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 80.97989245493326
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律的なツールの使用と複雑な問題解決のための多段階推論が可能なエージェントシステムへと進化してきた。
しかし、汎用基盤モデルに基づくポストトレーニングアプローチは、エージェントタスク、特にオープンソース実装において一貫してパフォーマンスが劣る。
堅牢なエージェントモデルがないことは、訓練後のモデルにさまざまなエージェントの振る舞いを同時に学習させながら、専門家によるデモンストレーションと整合させ、基本的な最適化の緊張を生じさせる。
この目的のために、我々は、エージェント連続事前訓練(Agentic CPT)をディープリサーチエージェント訓練パイプラインに組み込むことにより、強力なエージェント基礎モデルを構築することを提案する。
本稿では,AgentFounderというディープ・リサーチ・エージェント・モデルを開発した。
特にBrowseComp-enでは39.9%、BrowseComp-zhでは43.3%、HLEでは31.5%のPass@1である。
関連論文リスト
- SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - AWorld: Orchestrating the Training Recipe for Agentic AI [35.94278765364194]
本稿では,大規模エージェント-環境相互作用のためのオープンソースシステムであるAWorldを紹介する。
タスクをクラスタに分散することで、AWorldは通常の単一ノードのシーケンシャル実行と比較して、エクスペリエンスコレクションを14.6倍高速化する。
GAIAテストセットでパス@1精度32.23%のQwen3-32Bエージェントを訓練した。
論文 参考訳(メタデータ) (2025-08-28T04:04:30Z) - Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL [41.847359443133776]
CoA(Chain-of-Agents)は、大規模言語モデル(LLM)推論の新しいパラダイムであり、ネイティブなエンドツーエンドの複雑な問題解決を可能にする。
我々は, エージェント制御微調整のための多エージェント蒸留フレームワークを導入し, 最先端のマルチエージェントシステムをチェーン・オブ・エージェント・トラジェクトリに蒸留する。
次に、検証可能なエージェントタスクに対するエージェント強化学習を用いて、チェーン・オブ・エージェントの問題解決におけるモデルの能力をさらに向上する。
論文 参考訳(メタデータ) (2025-08-06T17:01:02Z) - Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。