論文の概要: Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
- arxiv url: http://arxiv.org/abs/2602.09341v1
- Date: Tue, 10 Feb 2026 02:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.332194
- Title: Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
- Title(参考訳): マルチエージェントLLM推論木の性能向上とLCM-as-Judge
- Authors: Wei Yang, Shixuan Li, Heng Ping, Peiyu Zhang, Paul Bogdan, Jesse Thomason,
- Abstract要約: 我々はAgentAuditorを導入し、投票をReasoning Tree上のパス検索に置き換える。
AgentAuditorは、分岐を重要な分岐点で比較することで競合を解決する。
最大5%の得票率で絶対精度が向上し、最大3%の得票率でLLM-as-Judgeを使用する。
- 参考スコア(独自算出の注目度): 18.843205691780284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems (MAS) can substantially extend the reasoning capacity of large language models (LLMs), yet most frameworks still aggregate agent outputs with majority voting. This heuristic discards the evidential structure of reasoning traces and is brittle under the confabulation consensus, where agents share correlated biases and converge on the same incorrect rationale. We introduce AgentAuditor, which replaces voting with a path search over a Reasoning Tree that explicitly represents agreements and divergences among agent traces. AgentAuditor resolves conflicts by comparing reasoning branches at critical divergence points, turning global adjudication into efficient, localized verification. We further propose Anti-Consensus Preference Optimization (ACPO), which trains the adjudicator on majority-failure cases and rewards evidence-based minority selections over popular errors. AgentAuditor is agnostic to MAS setting, and we find across 5 popular settings that it yields up to 5% absolute accuracy improvement over a majority vote, and up to 3% over using LLM-as-Judge.
- Abstract(参考訳): マルチエージェントシステム(MAS)は、大規模言語モデル(LLM)の推論能力を大幅に拡張することができるが、ほとんどのフレームワークは依然として多数決でエージェント出力を集約している。
このヒューリスティックは、推論トレースの明らかな構造を放棄し、エージェントが相関バイアスを共有し、同じ誤った理性に収束するという、折り畳みの合意の下で脆弱である。
我々はAgentAuditorを導入し、投票をReasoning Tree上のパス検索に置き換える。
AgentAuditorは、重要な分岐点における分岐の推論を比較し、グローバルな偏見を効率的で局所的な検証に変換することで、対立を解決する。
さらに, 多数決の事例に対して, 代弁者を訓練し, 一般的な誤りに対する証拠に基づくマイノリティ選択を報奨する, 反合意選好最適化(ACPO)を提案する。
AgentAuditorはMAS設定に非依存であり、5つの一般的な設定で、過半数の投票で最大5%の絶対精度の改善が得られ、LLM-as-Judgeの使用よりも最大3%の精度が得られます。
関連論文リスト
- MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文 参考訳(メタデータ) (2026-02-03T03:30:36Z) - ALIGN: Aligned Delegation with Performance Guarantees for Multi-Agent LLM Reasoning [9.381086885165208]
推論時間アンサンブル法は、多様な推論経路をサンプリングしたり、複数の候補解を集約することで、性能を向上させることができる。
本稿では,ALIGN(Aligned Delegation for Multi-Agent LLM Reasoning)という,ALIGN(Aligned Delegation for Multi-Agent LLM Reasoning)を提案する。
提案手法は,候補解に対する等速アクセスと公正に比較した場合,ALIGNが単一エージェント生成よりも期待性能を確実に向上することを示す理論的保証を確立する。
論文 参考訳(メタデータ) (2026-01-28T00:29:21Z) - OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning [14.105640933123325]
大規模言語モデル(LLM)は、数学的および科学的タスクにおいて顕著な推論能力を示している。
複雑な推論を強化するため、LLMエージェントの集合的知性を活用するためにマルチエージェントシステムが提案されている。
複数エージェントの協調構造を動的に構築・洗練する多エージェント言語強化学習アルゴリズムである$ours$を提案する。
論文 参考訳(メタデータ) (2025-10-20T19:07:51Z) - Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - Byzantine-Robust Decentralized Coordination of LLM Agents [4.097563258332958]
我々は,マルチエージェントLLMシステムのための分散コンセンサス手法であるDecentLLMsを提案する。
エージェントは同時に回答を生成し、評価エージェントは独立してこれらの回答をスコア付けしてランク付けし、最適な回答を選択する。
実験により,DecentLLMsはビザンチン系薬剤を効果的に許容し,選択された回答の質を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-07-20T11:55:26Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。
心の社会に動機づけられて、我々はReConcileを提案する。
LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文 参考訳(メタデータ) (2023-09-22T17:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。