論文の概要: iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference
- arxiv url: http://arxiv.org/abs/2511.11306v1
- Date: Fri, 14 Nov 2025 13:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.63411
- Title: iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference
- Title(参考訳): iMAD:高効率かつ高精度なLLM推論のためのインテリジェントマルチエージェント議論
- Authors: Wei Fan, JinYi Yoon, Bo Ji,
- Abstract要約: マルチエージェント・ディベート(MAD)は、構造化された議論に複数のエージェントを関与させる有望なフレームワークとして登場した。
トークン効率の高いフレームワークであるインテリジェントマルチエージェント・ディベート(iMAD)を提案する。
iMADはトークン使用率(最大92%)を大幅に削減し、最終回答精度(最大13.5%)も向上することを示した。
- 参考スコア(独自算出の注目度): 11.86992814928132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agent systems have advanced rapidly, driven by their strong generalization in zero-shot settings. To further enhance reasoning and accuracy on complex tasks, Multi-Agent Debate (MAD) has emerged as a promising framework that engages multiple LLM agents in structured debates to encourage diverse reasoning. However, triggering MAD for every query is inefficient, as it incurs substantial computational (token) cost and may even degrade accuracy by overturning correct single-agent answers. To address these limitations, we propose intelligent Multi-Agent Debate (iMAD), a token-efficient framework that selectively triggers MAD only when it is likely to be beneficial (i.e., correcting an initially wrong answer). To achieve this goal, iMAD learns generalizable model behaviors to make accurate debate decisions. Specifically, iMAD first prompts a single agent to produce a structured self-critique response, from which we extract 41 interpretable linguistic and semantic features capturing hesitation cues. Then, iMAD uses a lightweight debate-decision classifier, trained using our proposed FocusCal loss, to determine whether to trigger MAD, enabling robust debate decisions without test dataset-specific tuning. Through extensive experiments using six (visual) question answering datasets against five competitive baselines, we have shown that iMAD significantly reduces token usage (by up to 92%) while also improving final answer accuracy (by up to 13.5%).
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントシステムは、ゼロショット設定における強力な一般化によって急速に進歩している。
複雑なタスクにおける推論と精度をさらに高めるために、マルチエージェント議論(MAD)は、多種多様な推論を促進するために、構造化された議論において複数のLLMエージェントを関与させる有望なフレームワークとして登場した。
しかし、全てのクエリに対してMADをトリガーすることは、かなりの計算コストを発生させるため非効率であり、正しい単一エージェントの回答をオーバーターンすることで精度を低下させる可能性がある。
これらの制約に対処するため、トークン効率の高いフレームワークであるインテリジェントマルチエージェント・デベート(iMAD)を提案する。
この目的を達成するために、iMADは、正確な議論決定を行うために一般化可能なモデル行動を学ぶ。
特に、iMADは、まず単一のエージェントに対して、構造化された自己批判応答を生成するよう促し、そこから41の解釈可能な言語的特徴と意味的特徴を抽出する。
次にiMADは,提案したFocusCal損失を用いてトレーニングされた軽量な議論判断分類器を用いて,MADを起動するかどうかを判定し,データセット固有のチューニングをテストすることなく,堅牢な議論決定を可能にする。
6つの(視覚的な)質問応答データセットを5つの競合ベースラインに対して広範囲に実験した結果、iMADはトークンの使用量を92%削減し、最終的な回答精度を最大13.5%向上させた。
関連論文リスト
- Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - Free-MAD: Consensus-Free Multi-Agent Debate [17.384699873512464]
マルチエージェント討論(MAD)は、大規模言語モデル(LLM)の推論能力を改善するための新しいアプローチである。
既存のMADメソッドは、合意に達するためにエージェント間の複数ラウンドの相互作用に依存しており、最終的な出力は前回のラウンドで多数決によって選択される。
エージェント間のコンセンサスを必要としない新しいMADフレームワークであるtextscFree-MADを提案する。
論文 参考訳(メタデータ) (2025-09-14T01:55:01Z) - CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate [11.155092859033784]
単一大言語モデル(LLM)の問題を緩和するための効果的な戦略としてマルチエージェント議論(MAD)が登場した。
既存のMAD手法では、 (a) LLMエージェントが多くの入力情報に紛失し、性能低下を経験する、 (b) 自信過剰なジレンマ(自己保証LDMエージェントが議論を支配し、議論の有効性を低くする、という2つの問題に直面している。
そこで我々は,ヒトの脳に着想を得た新しいMAD手法"CortexDebate"を提案する。
論文 参考訳(メタデータ) (2025-07-05T07:23:15Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。