論文の概要: Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2604.11258v1
- Date: Mon, 13 Apr 2026 10:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.466846
- Title: Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate
- Title(参考訳): ダイアレクティック・メド: 対向的対向的マルチエージェント・ディベートによる診断幻覚の緩和
- Authors: Zhixiang Lu, Jionglong Su,
- Abstract要約: 本稿では,対数弁証法を用いて診断厳格を強制するマルチエージェントフレームワークDialectic-Medを提案する。
ファリシフィケーションの認知過程を明示的にモデル化することにより、診断的推論が検証された視覚領域にしっかりと根付いていることを保証する。
- 参考スコア(独自算出の注目度): 2.645243404278707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) in healthcare suffer from severe confirmation bias, often hallucinating visual details to support initial, potentially erroneous diagnostic hypotheses. Existing Chain-of-Thought (CoT) approaches lack intrinsic correction mechanisms, rendering them vulnerable to error propagation. To bridge this gap, we propose Dialectic-Med, a multi-agent framework that enforces diagnostic rigor through adversarial dialectics. Unlike static consensus models, Dialectic-Med orchestrates a dynamic interplay between three role-specialized agents: a proponent that formulates diagnostic hypotheses; an opponent equipped with a novel visual falsification module that actively retrieves contradictory visual evidence to challenge the Proponent; and a mediator that resolves conflicts via a weighted consensus graph. By explicitly modeling the cognitive process of falsification, our framework guarantees that diagnostic reasoning is tightly grounded in verified visual regions. Empirical evaluations on MIMIC-CXR-VQA, VQA-RAD, and PathVQA demonstrate that Dialectic-Med not only achieves state-of-the-art performance but also fundamentally enhances the trustworthiness of the reasoning process. Beyond accuracy, our approach significantly enhances explanation faithfulness and decisively mitigates hallucinations, establishing a new standard over single-agent baselines.
- Abstract(参考訳): 医療におけるMultimodal Large Language Model(MLLM)は、深刻な確認バイアスに悩まされ、しばしば視覚的詳細を幻覚させて、初期的、潜在的に誤った診断仮説を支持する。
既存のChain-of-Thought(CoT)アプローチには固有の補正機構がなく、エラーの伝播に弱い。
このギャップを埋めるため,対数弁証法を用いて診断厳格化を行う多エージェントフレームワークDialectic-Medを提案する。
静的コンセンサスモデルとは異なり、Dialectic-Medは3つの役割専門エージェント間の動的相互作用を編成する: 診断仮説を定式化するプロポーネント、プロポージェントに挑戦する矛盾した視覚的証拠を積極的に回収する新しい視覚的ファルシフィケーションモジュールを備えた相手、重み付きコンセンサスグラフを介して競合を解決する仲介者。
ファリシフィケーションの認知過程を明示的にモデル化することにより、診断的推論が検証された視覚領域にしっかりと根付いていることを保証する。
MIMIC-CXR-VQA、VQA-RAD、PathVQAの実証評価は、Dialectic-Medが最先端のパフォーマンスを達成するだけでなく、推論プロセスの信頼性を根本的に向上することを示した。
精度を超えて、本手法は説明の忠実性を大幅に向上させ、幻覚を決定的に緩和し、単一エージェントベースラインに対する新しい標準を確立する。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - MedCausalX: Adaptive Causal Reasoning with Self-Reflection for Trustworthy Medical Vision-Language Models [10.466505116993451]
既存の医療連鎖モデルには因果推論を表現・強制するための明確なメカニズムが欠如している。
MedCausalXは医療用VLMの因果推論チェーンを明示的にモデル化したエンドツーエンドフレームワークである。
我々は,MedCausalXが常に最先端の手法より優れ,診断の整合性は+5.4ポイント向上し,幻覚は10ポイント以上減少し,最上位の空間接地IoUに達することを示す。
論文 参考訳(メタデータ) (2026-03-24T11:28:15Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Making medical vision-language models think causally across modalities with retrieval-augmented cross-modal reasoning [16.243806723551454]
医用視覚言語モデル(VLM)は,診断報告や画像テキストアライメントにおいて高い性能を発揮する。
その根底にある推論機構は、基本的に相関関係にあり、表面的な統計的関連に頼っている。
因果推論の原理とマルチモーダル検索を統合するフレームワークであるMultimodal Causal Retrieval-Augmented Generationを提案する。
論文 参考訳(メタデータ) (2026-01-26T11:03:00Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning [22.39245479538899]
本報告では,高信頼な一元誤差が他の証拠をオーバーライドし,融合結果を誤認する診断障害モードであるモダリティ・サボタージュを導入する。
モデル非依存評価層は、各モダリティをエージェントとして扱い、候補ラベルと監査に用いる簡単な自己評価を生成する。
単純な融合機構はこれらの出力を集約し、コントリビュータ(正しい結果を支持するモダリティ)とサボツール(誤解を招くモダリティ)を露呈する。
論文 参考訳(メタデータ) (2025-11-04T18:20:13Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning [35.97057940590796]
MedMMV(MedMMV)は,信頼性・信頼性の高い臨床推論のための多エージェントフレームワークである。
6つの医療ベンチマークでは、MedMMVは最大12.7%の精度向上を実現し、さらに重要な点として信頼性の向上が示されている。
論文 参考訳(メタデータ) (2025-09-29T05:51:25Z) - Leveraging Imperfection with MEDLEY A Multi-Model Approach Harnessing Bias in Medical AI [42.798415096963396]
医学人工知能のバイアスは、伝統的に除去を必要とする欠陥と見なされている。
多様な出力を保存しながら複数のAIモデルを編成する概念的フレームワークであるMEDLEYを提案する。
意見の不一致を抑制する従来のアプローチとは異なり、MEDLEYはモデル固有のバイアスを潜在的な強みとして文書化する。
論文 参考訳(メタデータ) (2025-08-29T14:12:03Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。