論文の概要: Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy
- arxiv url: http://arxiv.org/abs/2603.06801v1
- Date: Fri, 06 Mar 2026 19:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.115467
- Title: Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy
- Title(参考訳): Martingale曲線を破る:非対称認知電位エネルギーによる多エージェント議論
- Authors: Yuhan Liu, Juntian Zhang, Yichen Wu, Martin Takac, Salem Lahlou, Xiuying Chen, Nils Lukas,
- Abstract要約: マルチエージェント・ディベート(MAD)は、大規模言語モデルの推論を強化するための有望なパラダイムとして登場した。
非対称な認知ポテンシャルエネルギーを活用することでマルティンゲール曲線を破るフレームワークであるAceMADを提案する。
- 参考スコア(独自算出の注目度): 42.25453328861205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-Agent Debate (MAD) has emerged as a promising paradigm for enhancing large language model reasoning. However, recent work reveals a limitation:standard MAD cannot improve belief correctness beyond majority voting; we refer to this as the Martingale Curse. This curse arises because correlated errors cause agents to converge toward erroneous consensus, where debate merely reinforces collective mistakes rather than filtering noise. We propose AceMAD, a framework that breaks the Martingale Curse by harnessing asymmetric cognitive potential energy to transform MAD from a random walk into a directed convergence process with positive drift. Through a peer-prediction mechanism, agents predict their peers' belief distributions, revealing asymmetric cognitive potential: truth-holders not only know the correct answer but also anticipate the crowd's misconceptions, while the hallucinating majority remains blind to their collective error. This asymmetry creates a potential energy gap that we quantify via strictly proper scoring rules. We prove this cognitive potential manifests as information-theoretic superiority and, under nonlinear aggregation, converts into submartingale drift toward truth, directly breaking the Martingale Curse. Experiments on challenging subsets across six benchmarks show AceMAD recovers sparse truth signals even when initial majorities are incorrect, substantially outperforming baseline methods.
- Abstract(参考訳): マルチエージェント・ディベート(MAD)は、大規模言語モデルの推論を強化するための有望なパラダイムとして登場した。
しかし、最近の研究は制限を明らかにしている: 標準MADは多数決以上の信条の正しさを改善できない; 我々はこれをマルティンガレ・カースと呼ぶ。
この呪いは、相関エラーがエージェントを誤ったコンセンサスに収束させ、議論は単にノイズをフィルタリングするよりも集団的ミスを補強するだけである。
AceMADは,非対称な認知ポテンシャルエネルギーを利用してランダムウォークから有向収束過程へとMADを変換し,マルティンゲール曲線を破るフレームワークである。
ピア予測機構を通じて、エージェントは仲間の信念分布を予測し、非対称的な認知可能性を明らかにする:真理保持者は正しい答えを知っているだけでなく、群衆の誤解も予測する。
この非対称性は、厳密な適切なスコアリング規則によって定量化されるポテンシャルエネルギーギャップを生み出す。
我々は、この認知ポテンシャルが情報理論上の優位性として証明され、非線形凝集の下では、真理に向かって沈降する沈降線へと変換され、マルティンゲール曲線を直接破壊する。
6つのベンチマークでの挑戦的なサブセットの実験では、初期多数派が間違っていて、実質的には優れたベースライン手法であっても、AceMADはスパース真理信号を回復する。
関連論文リスト
- Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - The Energy of Falsehood: Detecting Hallucinations via Diffusion Model Likelihoods [0.9877005520976847]
LLM(Large Language Models)は、しばしばもっともらしいが誤った主張を幻覚させる。
非平衡熱力学による事実検証を再現する,教師なしのフレームワークであるDiffuTruthを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:52:16Z) - Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning [26.42437186150084]
本研究では,大規模言語モデルにおける信念定着のための体系的評価フレームワークを提案する。
我々はベイズ統計からマルティンゴールの資産を用いて、この資産の違反を測定する。
モデル、推論手法、およびドメインは、信念の定着の傾向が強い。
論文 参考訳(メタデータ) (2025-12-02T16:34:05Z) - Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? [13.569822165805851]
マルチエージェント・ディベート(MAD)は,大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。
近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。
我々はMajority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し、それぞれのコントリビューションを評価する。
論文 参考訳(メタデータ) (2025-08-24T22:14:32Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。