論文の概要: Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation
- arxiv url: http://arxiv.org/abs/2511.02303v1
- Date: Tue, 04 Nov 2025 06:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.831441
- Title: Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation
- Title(参考訳): 推論のためのマルチエージェントLLMのパワーロック:遅延エージェントから検討へ
- Authors: Zhiwei Zhang, Xiaomin Li, Yudi Lin, Hui Liu, Ramraj Chandradevan, Linlin Wu, Minhua Lin, Fali Wang, Xianfeng Tang, Qi He, Suhang Wang,
- Abstract要約: 強化学習と検証可能な報酬で訓練された大規模言語モデル(LLM)は、複雑な推論タスクにおいて大きな成果を上げている。
最近の研究は、メタ思考エージェントが計画を提案し、進捗を監視し、推論エージェントが逐次的な会話のターンを通じてサブタスクを実行するというマルチエージェント設定にまで拡張されている。
1つのエージェントが支配的であり、もう1つのエージェントがほとんど貢献せず、コラボレーションが損なわれ、セットアップが非効率なシングルエージェントに崩壊する。
我々は、推論エージェントがノイズのある出力を破棄し、指示を集約し、推論プロセスを再起動させることで、議論を促す検証可能な報酬機構を提案する。
- 参考スコア(独自算出の注目度): 42.38513187601995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) trained with reinforcement learning and verifiable rewards have achieved strong results on complex reasoning tasks. Recent work extends this paradigm to a multi-agent setting, where a meta-thinking agent proposes plans and monitors progress while a reasoning agent executes subtasks through sequential conversational turns. Despite promising performance, we identify a critical limitation: lazy agent behavior, in which one agent dominates while the other contributes little, undermining collaboration and collapsing the setup to an ineffective single agent. In this paper, we first provide a theoretical analysis showing why lazy behavior naturally arises in multi-agent reasoning. We then introduce a stable and efficient method for measuring causal influence, helping mitigate this issue. Finally, as collaboration intensifies, the reasoning agent risks getting lost in multi-turn interactions and trapped by previous noisy responses. To counter this, we propose a verifiable reward mechanism that encourages deliberation by allowing the reasoning agent to discard noisy outputs, consolidate instructions, and restart its reasoning process when necessary. Extensive experiments demonstrate that our framework alleviates lazy agent behavior and unlocks the full potential of multi-agent framework for complex reasoning tasks.
- Abstract(参考訳): 強化学習と検証可能な報酬で訓練された大規模言語モデル(LLM)は、複雑な推論タスクにおいて大きな成果を上げている。
最近の研究は、メタ思考エージェントが計画を提案し、進捗を監視し、推論エージェントが逐次的な会話のターンを通してサブタスクを実行するというマルチエージェント設定にまで拡張されている。
1つのエージェントが支配的であり、もう1つのエージェントがほとんど貢献せず、コラボレーションが損なわれ、セットアップが非効率なシングルエージェントに崩壊する。
本稿では,マルチエージェント推論において遅延挙動が自然に発生する理由を理論的に考察する。
次に、因果的影響を測定するための安定かつ効率的な手法を導入し、この問題を緩和する。
最後に、コラボレーションが増加するにつれて、推論エージェントはマルチターンインタラクションで失われ、以前のノイズ応答に閉じ込められてしまう。
そこで本稿では,ノイズのある出力を排除し,命令を集約し,必要ならば推論プロセスを再起動させることにより,検討を促す検証可能な報酬機構を提案する。
大規模な実験により、我々のフレームワークは遅延エージェントの振る舞いを軽減し、複雑な推論タスクのためのマルチエージェントフレームワークの可能性を最大限に活用できることが示された。
関連論文リスト
- OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning [14.105640933123325]
大規模言語モデル(LLM)は、数学的および科学的タスクにおいて顕著な推論能力を示している。
複雑な推論を強化するため、LLMエージェントの集合的知性を活用するためにマルチエージェントシステムが提案されている。
複数エージェントの協調構造を動的に構築・洗練する多エージェント言語強化学習アルゴリズムである$ours$を提案する。
論文 参考訳(メタデータ) (2025-10-20T19:07:51Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Reducing Cognitive Overhead in Tool Use via Multi-Small-Agent Reinforcement Learning [1.974921946982281]
ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。
MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-12T12:10:53Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。
WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - Understanding Individual Agent Importance in Multi-Agent System via Counterfactual Reasoning [20.76991315856237]
本稿では,エージェントの重要度を評価する新しいエージェントレベルの説明手法であるEMAIを提案する。
反実的推論にインスパイアされたエージェントのランダム化作用による報酬の変化は、その重要性を示唆している。
EMAIは、ベースラインよりも説明の忠実度が高く、実践的応用においてより効果的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-20T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。