論文の概要: Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2511.11182v1
- Date: Fri, 14 Nov 2025 11:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.560895
- Title: Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning
- Title(参考訳): マルチエージェント・アンダーサーベイゲーム:マルチモーダル推論のためのファクトファクトテストによる幻覚除去
- Authors: Dayong Liang, Xiao-Yong Wei, Changmeng Zheng,
- Abstract要約: 幻覚は、大きな言語モデルの推論能力において大きな障害となる。
以下、Multi-Adnt Undercover Gaming(MUG)プロトコルを紹介します。
MUGは、マルチモーダル・カウンターファクト・テスト(英語版)を用いることで、(幻覚に苦しむ)「アンダーカバー」エージェントを検出するプロセスとしてMADを再編成する。
- 参考スコア(独自算出の注目度): 12.06050648342985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination continues to pose a major obstacle in the reasoning capabilities of large language models (LLMs). Although the Multi-Agent Debate (MAD) paradigm offers a promising solution by promoting consensus among multiple agents to enhance reliability, it relies on the unrealistic assumption that all debaters are rational and reflective, which is a condition that may not hold when agents themselves are prone to hallucinations. To address this gap, we introduce the Multi-agent Undercover Gaming (MUG) protocol, inspired by social deduction games like "Who is Undercover?". MUG reframes MAD as a process of detecting "undercover" agents (those suffering from hallucinations) by employing multimodal counterfactual tests. Specifically, we modify reference images to introduce counterfactual evidence and observe whether agents can accurately identify these changes, providing ground-truth for identifying hallucinating agents and enabling robust, crowd-powered multimodal reasoning. MUG advances MAD protocols along three key dimensions: (1) enabling factual verification beyond statistical consensus through counterfactual testing; (2) introducing cross-evidence reasoning via dynamically modified evidence sources instead of relying on static inputs; and (3) fostering active reasoning, where agents engage in probing discussions rather than passively answering questions. Collectively, these innovations offer a more reliable and effective framework for multimodal reasoning in LLMs. The source code can be accessed at https://github.com/YongLD/MUG.git.
- Abstract(参考訳): 幻覚は、大きな言語モデル(LLM)の推論能力において大きな障害となり続けている。
マルチエージェント議論(MAD)パラダイムは、信頼性を高めるために複数のエージェント間のコンセンサスを促進することによって、有望な解決策を提供するが、それはすべての議論者が合理的で反射的であるという非現実的な仮定に依存している。
このギャップに対処するため,我々は"Who is Undercover?"のような社会的推論ゲームに触発されたMulti-agent Undercover Gaming (MUG)プロトコルを導入する。
MUGは、マルチモーダル・カウンターファクト・テスト(英語版)を用いることで、(幻覚に苦しむ)「アンダーカバー」エージェントを検出するプロセスとしてMADを再編成する。
具体的には、参照画像を修正して、反事実的証拠を導入し、エージェントがこれらの変化を正確に識別できるかどうかを観察し、幻覚剤を識別し、堅牢でクラウド駆動のマルチモーダル推論を可能にする。
MUGは3つの主要な側面に沿ってMADプロトコルを進歩させ,(1)統計的コンセンサスを超えた事実検証を可能にすること,(2)静的入力に頼るのではなく,動的に修正された証拠ソースによるクロスエビデンス推論を導入すること,(3)エージェントが質問に受動的に答えるのではなく,議論を行う活動的推論を促進すること,である。
まとめると、これらの革新はLLMにおけるマルチモーダル推論のためのより信頼性が高く効果的なフレームワークを提供する。
ソースコードはhttps://github.com/YongLD/MUG.gitでアクセスできる。
関連論文リスト
- Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - Mitigating Manipulation and Enhancing Persuasion: A Reflective Multi-Agent Approach for Legal Argument Generation [3.99322081587874]
大規模言語モデル(LLM)は、法的議論生成のためにますます研究されている。
幻覚と未解決の説得による操作の重大なリスクを生じさせる。
本稿では,これらの課題に対処するために,新しい反射型マルチエージェント手法を提案する。
論文 参考訳(メタデータ) (2025-06-03T15:28:30Z) - Breaking Event Rumor Detection via Stance-Separated Multi-Agent Debate [21.342632695285364]
噂検出のために大きな言語モデル(LLM)を活用することは、大きな約束である。
本稿では,S2MAD(Stance Separated Multi-Agent Debate)を提案する。
提案手法は性能の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-06T08:52:30Z) - MAD-Sherlock: Multi-Agent Debate for Visual Misinformation Detection [36.12673167913763]
文外誤情報検出のためのマルチエージェント討論システムMAD-Sherlockを紹介する。
MAD-Sherlockは、オンラインで見られる多様で矛盾する会話を反映して、マルチエージェントの議論として検出する。
我々のフレームワークはドメインと時間に依存しず、微調整は必要ありませんが、詳細な説明で最先端の精度を実現しています。
論文 参考訳(メタデータ) (2024-10-26T10:34:22Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。