論文の概要: Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
- arxiv url: http://arxiv.org/abs/2504.09772v1
- Date: Mon, 14 Apr 2025 00:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:37.194129
- Title: Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
- Title(参考訳): 2つの頭部が1より優れている:多エージェント協調推論のテスト時間スケーリング
- Authors: Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che,
- Abstract要約: 大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。
モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.580108004844856
- License:
- Abstract: Multi-agent systems (MAS) built on large language models (LLMs) offer a promising path toward solving complex, real-world tasks that single-agent systems often struggle to manage. While recent advancements in test-time scaling (TTS) have significantly improved single-agent performance on challenging reasoning tasks, how to effectively scale collaboration and reasoning in MAS remains an open question. In this work, we introduce an adaptive multi-agent framework designed to enhance collaborative reasoning through both model-level training and system-level coordination. We construct M500, a high-quality dataset containing 500 multi-agent collaborative reasoning traces, and fine-tune Qwen2.5-32B-Instruct on this dataset to produce M1-32B, a model optimized for multi-agent collaboration. To further enable adaptive reasoning, we propose a novel CEO agent that dynamically manages the discussion process, guiding agent collaboration and adjusting reasoning depth for more effective problem-solving. Evaluated in an open-source MAS across a range of tasks-including general understanding, mathematical reasoning, and coding-our system significantly outperforms strong baselines. For instance, M1-32B achieves 12% improvement on GPQA-Diamond, 41% on AIME2024, and 10% on MBPP-Sanitized, matching the performance of state-of-the-art models like DeepSeek-R1 on some tasks. These results highlight the importance of both learned collaboration and adaptive coordination in scaling multi-agent reasoning. Code is available at https://github.com/jincan333/MAS-TTS
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、単一エージェントシステムが管理に苦慮する複雑な現実世界のタスクを解決するための、有望な道筋を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、困難な推論タスクにおいてシングルエージェントのパフォーマンスを著しく向上させているが、MASにおけるコラボレーションと推論を効果的にスケールする方法は、未解決の問題である。
本研究では,モデルレベルの学習とシステムレベルの調整の両方を通じて協調推論を強化するための適応型マルチエージェントフレームワークを提案する。
我々は,500個のマルチエージェント協調推論トレースを含む高品質なデータセットであるM500を構築し,このデータセット上でQwen2.5-32Bを微調整し,マルチエージェント協調に最適化されたモデルであるM1-32Bを生成する。
さらに適応推論を可能にするために,議論プロセスを動的に管理し,エージェントの協調を指導し,より効果的な問題解決のために推論深度を調整する新しいCEOエージェントを提案する。
一般的な理解、数学的推論、コーディング・アー・システムを含む様々なタスクにわたるオープンソースのMASの評価は、強いベースラインを著しく上回る。
例えば、M1-32BはGPQA-Diamondを12%改善し、AIME2024を41%、MBPP-Sanitizedを10%改善した。
これらの結果は、マルチエージェント推論のスケーリングにおいて、学習された協調と適応的調整の両方の重要性を強調している。
コードはhttps://github.com/jincan333/MAS-TTSで入手できる。
関連論文リスト
- LLM-Powered Decentralized Generative Agents with Adaptive Hierarchical Knowledge Graph for Cooperative Planning [12.996741471128539]
動的オープンワールドシナリオにおける長期協力のためのインテリジェントエージェントの開発は、マルチエージェントシステムにおける大きな課題である。
本稿では,分散適応型知識グラフメモリと構造化通信システム(DAMCS)を,新しいマルチエージェントクラフト環境において提案する。
我々の生成エージェントはLLM(Large Language Models)を利用しており、長期計画と推論のために外部知識と言語を活用することで従来のMARLエージェントよりもスケーラブルである。
論文 参考訳(メタデータ) (2025-02-08T05:26:02Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Towards Effective GenAI Multi-Agent Collaboration: Design and Evaluation for Enterprise Applications [15.480315462362531]
本稿では,新しいマルチエージェント協調フレームワークにおける協調とルーティング機能に関する総合的な評価について述べる。
コーディネート機能として,エージェント間通信とペイロード参照機構の有効性を実証し,エンドツーエンドの目標達成率を90%とする。
マルチエージェントコラボレーションは,ベンチマークの単一エージェントアプローチと比較して,目標達成率を最大70%向上させる。
論文 参考訳(メタデータ) (2024-12-06T22:14:17Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - COMMA: A Communicative Multimodal Multi-Agent Benchmark [7.831385481814481]
本稿では,言語コミュニケーションによるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを提案する。
GPT-4oのようなプロプライエタリなモデルを含む最先端モデルの驚くべき弱点が明らかになった。
論文 参考訳(メタデータ) (2024-10-10T02:49:47Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems [15.159418172629701]
大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。
シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。
我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-28T17:43:55Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。