論文の概要: UCAgents: Unidirectional Convergence for Visual Evidence Anchored Multi-Agent Medical Decision-Making
- arxiv url: http://arxiv.org/abs/2512.02485v1
- Date: Tue, 02 Dec 2025 07:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.764189
- Title: UCAgents: Unidirectional Convergence for Visual Evidence Anchored Multi-Agent Medical Decision-Making
- Title(参考訳): UCAgents: マルチエージェント・メディカルディシジョン・メイキングによる視覚的エビデンスに対する一方向収束
- Authors: Qianhan Feng, Zhongzhen Huang, Yakun Zhu, Xiaofan Zhang, Qi Dou,
- Abstract要約: VLM(Vision-Language Models)は、医学的診断において有望であるが、推論的分離に苦しむ。
最近のマルチエージェントフレームワークは、単一モデルのバイアスを軽減するために、MDT(Multidiciplinary Team)の議論をシミュレートしている。
構造化された証拠監査を通じて一方向収束を強制するUCAgentsを提案する。
- 参考スコア(独自算出の注目度): 23.911343934512626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) show promise in medical diagnosis, yet suffer from reasoning detachment, where linguistically fluent explanations drift from verifiable image evidence, undermining clinical trust. Recent multi-agent frameworks simulate Multidisciplinary Team (MDT) debates to mitigate single-model bias, but open-ended discussions amplify textual noise and computational cost while failing to anchor reasoning to visual evidence, the cornerstone of medical decision-making. We propose UCAgents, a hierarchical multi-agent framework enforcing unidirectional convergence through structured evidence auditing. Inspired by clinical workflows, UCAgents forbids position changes and limits agent interactions to targeted evidence verification, suppressing rhetorical drift while amplifying visual signal extraction. In UCAgents, a one-round inquiry discussion is introduced to uncover potential risks of visual-textual misalignment. This design jointly constrains visual ambiguity and textual noise, a dual-noise bottleneck that we formalize via information theory. Extensive experiments on four medical VQA benchmarks show UCAgents achieves superior accuracy (71.3% on PathVQA, +6.0% over state-of-the-art) with 87.7% lower token cost, the evaluation results further confirm that UCAgents strikes a balance between uncovering more visual evidence and avoiding confusing textual interference. These results demonstrate that UCAgents exhibits both diagnostic reliability and computational efficiency critical for real-world clinical deployment. Code is available at https://github.com/fqhank/UCAgents.
- Abstract(参考訳): VLM(Vision-Language Models)は、医学的診断において有望であるが、言語学的に流動的な説明が検証可能な画像証拠から逸脱し、臨床的信頼を損なうような、推論的分離に苦しむ。
最近のマルチエージェントフレームワークは、単一モデルのバイアスを軽減するためにMDT(Multidiciplinary Team)の議論をシミュレートしている。
構造化されたエビデンス監査を通じて一方向収束を強制する階層型マルチエージェントフレームワークであるUCAgentsを提案する。
臨床ワークフローに触発されて、UCAgentsは位置変化を禁止し、エージェントの相互作用を目的の証拠検証に制限し、視覚信号の抽出を増幅しながら、修辞的なドリフトを抑制する。
UCAgentsでは、視覚的・テキスト的不一致の潜在的なリスクを明らかにするために、一周的な議論が紹介されている。
この設計は視覚的あいまいさとテキストノイズを協調的に制約する。
4つの医用VQAベンチマークの大規模な実験では、UCAgentsはより優れた精度(PathVQAでは71.3%、最先端では+6.0%)を87.7%低いトークンコストで達成している。
これらの結果から, UCAgentsは診断の信頼性と計算効率を両立し, 実際の臨床展開に欠かせないことが示唆された。
コードはhttps://github.com/fqhank/UCAgentsで入手できる。
関連論文リスト
- S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - RareAgent: Self-Evolving Reasoning for Drug Repurposing in Rare Diseases [40.52507491248964]
RareAgentは、このタスクをパッシブパターン認識からアクティブエビデンス検索推論に再構成する、自己進化型マルチエージェントシステムである。
総合的な評価によると、RareAgentは推論基準よりもAUPRCの表示を18.1%改善している。
論文 参考訳(メタデータ) (2025-10-07T10:35:18Z) - MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning [35.97057940590796]
MedMMV(MedMMV)は,信頼性・信頼性の高い臨床推論のための多エージェントフレームワークである。
6つの医療ベンチマークでは、MedMMVは最大12.7%の精度向上を実現し、さらに重要な点として信頼性の向上が示されている。
論文 参考訳(メタデータ) (2025-09-29T05:51:25Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning [6.96058549084651]
EndoAgentは、視覚から決定への内視鏡分析のためのメモリ誘導剤である。
反復推論と適応的なツールの選択とコラボレーションを統合する。
一般的なマルチモーダルモデルと医療用マルチモーダルモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-10T11:02:57Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。