論文の概要: Scaling Multiagent Systems with Process Rewards
- arxiv url: http://arxiv.org/abs/2601.23228v2
- Date: Wed, 04 Feb 2026 00:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.619881
- Title: Scaling Multiagent Systems with Process Rewards
- Title(参考訳): プロセスリワードによるマルチエージェントシステムのスケーリング
- Authors: Ed Li, Junyu Ren, Cat Yan,
- Abstract要約: AIフィードバック(MAPPA)によるプロセスごとの報酬を考慮したマルチエージェントシステムを提案する。
我々は,競合数学問題とツール拡張データ解析タスクに対するアプローチを実証する。
データ解析タスクでは,品質指標が最大47%向上する一方,成功率を+16.7pp向上させる。
- 参考スコア(独自算出の注目度): 0.46729918593868963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +16.7pp while quality metrics improve by up to 47%, validating that per-action supervision can lead to improvements across different multiagent systems on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
- Abstract(参考訳): マルチエージェントシステムでは,複雑なタスクに専門化して対処することが約束されているが,複数のエージェントを微調整することは,(1)エージェント間のクレジット割り当て,(2)高価なマルチエージェントロールアウトのサンプル効率の2つの課題に同時に直面する。
そこで本研究では,AIフィードバック(MAPPA)から処理毎の報酬を付与したマルチエージェントシステムを提案する。
MAPPAは、タスク完了時にのみではなく、個々のエージェントアクションにクレジットを割り当てることで、各ロールアウトから最大トレーニング信号を抽出しながら、真実ラベルなしできめ細かな監督を可能にする。
我々は,競合数学問題とツール拡張データ解析タスクに対するアプローチを実証する。
未確認の数学問題では、MAPPAはAIMEで+5.0--17.5pp、AMCで+7.8--17.2ppを達成した。
データ分析タスクでは,品質指標が最大47%向上し,各ドメインのマルチエージェントシステムにまたがる改善につながることを検証しながら,+16.7ppの精度向上を実現している。
これらの課題に対処することで、人間の監督を最小限に抑えながら、複雑な長期タスクのためにマルチエージェントシステムをスケールする第一歩を踏み出します。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。
InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文 参考訳(メタデータ) (2025-09-26T15:44:09Z) - Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning [29.580108004844856]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。
モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T00:27:45Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Towards Effective GenAI Multi-Agent Collaboration: Design and Evaluation for Enterprise Applications [15.480315462362531]
本稿では,新しいマルチエージェント協調フレームワークにおける協調とルーティング機能に関する総合的な評価について述べる。
コーディネート機能として,エージェント間通信とペイロード参照機構の有効性を実証し,エンドツーエンドの目標達成率を90%とする。
マルチエージェントコラボレーションは,ベンチマークの単一エージェントアプローチと比較して,目標達成率を最大70%向上させる。
論文 参考訳(メタデータ) (2024-12-06T22:14:17Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。