論文の概要: Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06750v1
- Date: Sun, 11 Jan 2026 02:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.964697
- Title: Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models
- Title(参考訳): 医療用多モーダル大言語モデルのためのエゴセントリックな臨床インテント理解能力のベンチマーク
- Authors: Shaonan Liu, Guo Yu, Xiaoling Luo, Shiyi Zheng, Wenting Chen, Jie Liu, Linlin Shen,
- Abstract要約: MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
- 参考スコア(独自算出の注目度): 48.95516224614331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Multimodal Large Language Models (Med-MLLMs) require egocentric clinical intent understanding for real-world deployment, yet existing benchmarks fail to evaluate this critical capability. To address these challenges, we introduce MedGaze-Bench, the first benchmark leveraging clinician gaze as a Cognitive Cursor to assess intent understanding across surgery, emergency simulation, and diagnostic interpretation. Our benchmark addresses three fundamental challenges: visual homogeneity of anatomical structures, strict temporal-causal dependencies in clinical workflows, and implicit adherence to safety protocols. We propose a Three-Dimensional Clinical Intent Framework evaluating: (1) Spatial Intent: discriminating precise targets amid visual noise, (2) Temporal Intent: inferring causal rationale through retrospective and prospective reasoning, and (3) Standard Intent: verifying protocol compliance through safety checks. Beyond accuracy metrics, we introduce Trap QA mechanisms to stress-test clinical reliability by penalizing hallucinations and cognitive sycophancy. Experiments reveal current MLLMs struggle with egocentric intent due to over-reliance on global features, leading to fabricated observations and uncritical acceptance of invalid instructions.
- Abstract(参考訳): 医療マルチモーダル大規模言語モデル(Med-MLLMs)は、実世界の展開にエゴセントリックな臨床的意図の理解を必要とするが、既存のベンチマークでは、この重要な能力を評価できない。
これらの課題に対処するために,臨床医の視線を認知的カーソルとして活用した最初のベンチマークであるMedGaze-Benchを紹介した。
本ベンチマークでは、解剖学的構造の視覚的均一性、臨床ワークフローにおける厳密な時間・因果依存性、安全プロトコルへの暗黙の固執という3つの基本的な課題に対処する。
本研究では,(1)空間的意図:視覚雑音下での正確なターゲットの識別,(2)時間的意図:振り返りと予測的推論による因果的理性推論,(3)標準意図:安全チェックによるプロトコルコンプライアンスの検証,の3次元臨床意図フレームワークを提案する。
精度測定の他に、幻覚と認知性梅毒を鎮痛し、ストレステストの信頼性を高めるためにTrap QA機構を導入する。
実験により、現在のMLLMは、グローバルな特徴への過度な依存のため、エゴセントリックな意図に苦しむことが明らかとなり、製造された観察結果と、無効な命令の非クリティカルな受け入れにつながった。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Think as a Doctor: An Interpretable AI Approach for ICU Mortality Prediction [7.809857381429602]
本稿では,ICUの意思決定プラクティスの3つの要素をすべてその推論プロセスに統合しつつ,本質的な解釈性を実現する新しいICU死亡予測フレームワークを提案する。
ProtoDoctorには2つの重要なイノベーションがある: Prognostic Clinical Course IdentificationモジュールとDemographic Heterogeneity Recognitionモジュール。
ProtoDoctorは予測精度で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-11T14:57:07Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - ControlMed: Adding Reasoning Control to Medical Language Model [1.0207955314209531]
医療領域において、精度と説明性を高めた大規模言語モデル(LLM)の推論が採用されつつある。
既存の推論 LLM は、必要以上に長い推論プロセスを生成し、計算オーバーヘッドと応答遅延を増大させる。
推論時に推論プロセスの長さをアクティブに制御できる医療言語モデルである textbfControlMed を導入する。
論文 参考訳(メタデータ) (2025-07-30T10:17:07Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。