論文の概要: Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making
- arxiv url: http://arxiv.org/abs/2512.13747v1
- Date: Mon, 15 Dec 2025 03:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.422896
- Title: Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making
- Title(参考訳): テキストが普及する理由:ビジョンはマルチモーダル医療の意思決定を損なうかもしれない
- Authors: Siyuan Dai, Lunxiao Li, Kun Zhao, Eardi Lila, Paul K. Crane, Heng Huang, Dongkuan Xu, Haoteng Tang, Liang Zhan,
- Abstract要約: 最新のマルチモーダル言語モデル (MLLM) でさえ, 基本的な医療意思決定 (MDM) の課題に苦しむことを示す。
私たちの経験的研究は、テキストのみの推論が、視覚のみまたは視覚的テキスト設定よりも一貫して優れていることを示している。
これらの知見は、医療におけるマルチモーダル意思決定を改善するための有望な方向性を示している。
- 参考スコア(独自算出の注目度): 47.976936248969366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid progress of large language models (LLMs), advanced multimodal large language models (MLLMs) have demonstrated impressive zero-shot capabilities on vision-language tasks. In the biomedical domain, however, even state-of-the-art MLLMs struggle with basic Medical Decision Making (MDM) tasks. We investigate this limitation using two challenging datasets: (1) three-stage Alzheimer's disease (AD) classification (normal, mild cognitive impairment, dementia), where category differences are visually subtle, and (2) MIMIC-CXR chest radiograph classification with 14 non-mutually exclusive conditions. Our empirical study shows that text-only reasoning consistently outperforms vision-only or vision-text settings, with multimodal inputs often performing worse than text alone. To mitigate this, we explore three strategies: (1) in-context learning with reason-annotated exemplars, (2) vision captioning followed by text-only inference, and (3) few-shot fine-tuning of the vision tower with classification supervision. These findings reveal that current MLLMs lack grounded visual understanding and point to promising directions for improving multimodal decision making in healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、高度な多モーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて印象的なゼロショット機能を示した。
しかし、バイオメディカル領域では、最先端のMLLMでさえ、基本的な医療決定(MDM)タスクに苦しむ。
3段階のアルツハイマー病 (AD) 分類(正常, 軽度認知障害, 認知症, 認知症) とMIMIC-CXR 胸部X線写真分類の4つの特徴について検討した。
私たちの経験的研究は、テキストのみの推論は、視覚のみまたは視覚的テキスト設定よりも一貫して優れており、マルチモーダル入力はテキスト単独よりも悪い場合が多いことを示しています。
これを軽減するために,(1)理数注釈付き例による文脈内学習,(2)視覚キャプションとテキストのみの推論,(3)視覚塔の分類監督による微調整の3つの戦略を検討する。
これらの結果から,現在のMLLMには視覚的理解が欠如しており,医療におけるマルチモーダル意思決定を改善するための有望な方向性が示唆されている。
関連論文リスト
- TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow [43.82288530883818]
EH-Benchmarkは、医学大言語モデルにおける幻覚を評価するために設計された新しい眼科ベンチマークである。
特定のタスクとエラータイプに基づいて幻覚を視覚的理解と論理的構成の2つの主要クラスに分類する。
我々のフレームワークは、両方の幻覚、精度、解釈可能性、信頼性を著しく軽減します。
論文 参考訳(メタデータ) (2025-07-24T12:07:36Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks? [10.09105558197397]
近年の医用視力訓練の進歩は、ゼロショットの医療用視力タスクを大幅に強化した。
これらのタスクのパフォーマンスは、カテゴリを記述するテキストプロンプトの変動性に大きく影響される。
論文 参考訳(メタデータ) (2024-08-31T20:43:06Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。