論文の概要: Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
- arxiv url: http://arxiv.org/abs/2508.13167v1
- Date: Wed, 06 Aug 2025 17:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.513521
- Title: Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
- Title(参考訳): チェーン・オブ・エージェント:マルチエージェント蒸留とエージェントRLによるエンド・ツー・エンドエージェント基礎モデル
- Authors: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou,
- Abstract要約: CoA(Chain-of-Agents)は、大規模言語モデル(LLM)推論の新しいパラダイムであり、ネイティブなエンドツーエンドの複雑な問題解決を可能にする。
我々は, エージェント制御微調整のための多エージェント蒸留フレームワークを導入し, 最先端のマルチエージェントシステムをチェーン・オブ・エージェント・トラジェクトリに蒸留する。
次に、検証可能なエージェントタスクに対するエージェント強化学習を用いて、チェーン・オブ・エージェントの問題解決におけるモデルの能力をさらに向上する。
- 参考スコア(独自算出の注目度): 41.847359443133776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) and multi-agent systems have demonstrated remarkable capabilities in complex problem-solving tasks such as deep research, vibe coding, and mathematical reasoning. However, most existing multi-agent systems are built upon manual prompt/workflow engineering with sophisticated agent frameworks, making them computationally inefficient, less capable, and can not benefit from data-centric learning. In this work, we introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables native end-to-end complex problem-solving in the same way as a multi-agent system (i.e., multi-turn problem solving with multiple tools and multiple agents) within one model. In chain-of-agents problem-solving, the model dynamically activates different tool agents and role-playing agents to simulate multi-agent collaboration in an end-to-end fashion. To elicit end-to-end chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent distillation framework to distill state-of-the-art multi-agent systems into chain-of-agents trajectories for agentic supervised fine-tuning. We then use agentic reinforcement learning on verifiable agentic tasks to further improve the models' capabilities on chain-of-agents problem solving. We call the resulting models Agent Foundation Models (AFMs). Our empirical studies demonstrate that AFM establishes new state-of-the-art performance across diverse benchmarks in both web agent and code agent settings. We make the entire research, including the model weights, code for training and evaluation, and the training data, fully open-sourced, which offers a solid starting point for future research on agent models and agentic RL.
- Abstract(参考訳): 大規模言語モデル(LLM)やマルチエージェントシステムの最近の進歩は、ディープリサーチ、ビブコーディング、数学的推論といった複雑な問題解決タスクにおいて顕著な能力を示している。
しかし、既存のマルチエージェントシステムの多くは、手動のプロンプト/ワークフローエンジニアリングと洗練されたエージェントフレームワークに基づいて構築されており、計算的に非効率で、能力が低く、データ中心の学習の恩恵を受けられない。
本研究では,マルチエージェントシステム(複数ツールと複数エージェントを用いたマルチターン問題解決)と同じように,ネイティブなエンドツーエンドの複雑な問題解決を可能にする,LLM推論の新しいパラダイムであるChain-of-Agents(CoA)を紹介する。
チェーン・オブ・エージェントの問題解決において、モデルは異なるツールエージェントとロールプレイングエージェントを動的に活性化し、エンドツーエンドでマルチエージェント協調をシミュレートする。
LLMのエンド・ツー・エンドのチェーン・オブ・エージェント問題解決能力を実現するため,エージェント制御微調整用チェーン・オブ・エージェント・トラジェクトリに最先端のマルチエージェントシステムを蒸留するためのマルチエージェント蒸留フレームワークを導入する。
次に、検証可能なエージェントタスクに対するエージェント強化学習を用いて、チェーン・オブ・エージェントの問題解決におけるモデルの能力をさらに向上する。
得られたモデルをAgent Foundation Models (AFMs) と呼ぶ。
実験により、AFMはWebエージェントとコードエージェントの設定の両方において、様々なベンチマークにまたがって新しい最先端性能を確立することが実証された。
モデルウェイト、トレーニングと評価のためのコード、およびトレーニングデータを含む研究全体を完全にオープンソース化し、エージェントモデルとエージェントRLに関する将来の研究の出発点となる。
関連論文リスト
- EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。