論文の概要: Medical Context Distorts Decisions in Clinical Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.17436v1
- Date: Sun, 17 May 2026 13:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.018285
- Title: Medical Context Distorts Decisions in Clinical Vision Language Models
- Title(参考訳): 臨床ビジョン言語モデルにおける医学的文脈歪みの決定
- Authors: David Restrepo, Ira Ktena, Maria Vakalopoulou, Stergios Christodoulidis, Enzo Ferrante,
- Abstract要約: ヴィジュアル言語モデル (VLM) は, 臨床診断支援のためにますます提案されているが, 現実シナリオにおける信頼性は乏しい。
本報告では,画像上のテキストに対するモダリティの過度依存,関係のない臨床歴への急激な依存,意味論的に等価な入力に対する迅速な感度の3つの障害モードを同定する。
- 参考スコア(独自算出の注目度): 7.537887356414114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly proposed for clinical decision support, yet their reliability in real-world scenarios that require integrating both visual and textual context from medical records remains poorly characterized. This paper identifies three failure modes: (1) modality over-reliance on text over images, (2) spurious reliance on irrelevant clinical history, and (3) prompt sensitivity across semantically equivalent inputs. We evaluate a diverse set of general-domain and medically-tuned open and closed VLMs on chest x-ray tasks using MIMIC-CXR. By systematically manipulating image-text alignment, clinical history, and prompt formulations, we found that VLM decisions are dominated by the text modality, even when visual evidence is available. Moreover, we observed that VLMs are heavily influenced by irrelevant reports, while minor prompt changes can reverse correct image-based predictions. Our findings underscore the need for explicit safeguards and stress-testing before considering the use of these models in clinical practice.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、臨床診断支援のためにますます提案されているが、医療記録からの視覚的・テキスト的コンテキストの統合を必要とする現実シナリオにおける信頼性は、いまだに不十分である。
本稿では,(1)画像上のテキストに対するモダリティの過度依存,(2)無関係な臨床歴への急激な依存,(3)意味論的に等価な入力に対する迅速な感度の3つの障害モードを同定する。
我々は,MIMIC-CXRを用いて胸部X線作業において,汎用領域と医学的に調整されたオープンおよびクローズドVLMの多種多様なセットを評価した。
画像テキストアライメント,臨床履歴,迅速な定式化を体系的に操作することにより,視覚的証拠が得られても,VLM決定はテキストモダリティに支配されることがわかった。
さらに,VLMは無関係な報告の影響を強く受けており,微妙なプロンプト変化は画像に基づく予測の正しさを逆転させる可能性があることを観察した。
本研究は, 臨床実習におけるこれらのモデルの使用を検討する前に, 明確な安全とストレステストの必要性を浮き彫りにした。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making [47.976936248969366]
最新のマルチモーダル言語モデル (MLLM) でさえ, 基本的な医療意思決定 (MDM) の課題に苦しむことを示す。
私たちの経験的研究は、テキストのみの推論が、視覚のみまたは視覚的テキスト設定よりも一貫して優れていることを示している。
これらの知見は、医療におけるマルチモーダル意思決定を改善するための有望な方向性を示している。
論文 参考訳(メタデータ) (2025-12-15T03:09:31Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。
画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文 参考訳(メタデータ) (2025-07-31T21:35:52Z) - Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。
本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:31:24Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。