論文の概要: Enhancing Medical Large Vision-Language Models via Alignment Distillation
- arxiv url: http://arxiv.org/abs/2512.18554v1
- Date: Sun, 21 Dec 2025 00:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.394424
- Title: Enhancing Medical Large Vision-Language Models via Alignment Distillation
- Title(参考訳): 配位蒸留による医療用大規模視線モデルの構築
- Authors: Aofei Chang, Ting Wang, Fenglong Ma,
- Abstract要約: 我々は,Med-LVLMの領域固有のコントラスト言語-画像事前学習モデルから視覚的アライメントの知識を伝達するためのMEDALIGNを提案する。
MEDALIGNは,医療報告生成と医用視覚質問応答ベンチマークの実験により,パフォーマンスと解釈性の両方を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 30.592211423687246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Large Vision-Language Models (Med-LVLMs) have shown promising results in clinical applications, but often suffer from hallucinated outputs due to misaligned visual understanding. In this work, we identify two fundamental limitations contributing to this issue: insufficient visual representation learning and poor visual attention alignment. To address these problems, we propose MEDALIGN, a simple, lightweight alignment distillation framework that transfers visual alignment knowledge from a domain-specific Contrastive Language-Image Pre-training (CLIP) model to Med-LVLMs. MEDALIGN introduces two distillation losses: a spatial-aware visual alignment loss based on visual token-level similarity structures, and an attention-aware distillation loss that guides attention toward diagnostically relevant regions. Extensive experiments on medical report generation and medical visual question answering (VQA) benchmarks show that MEDALIGN consistently improves both performance and interpretability, yielding more visually grounded outputs.
- Abstract(参考訳): Med-LVLMs (Med-LVLMs) は臨床応用において有望な結果を示したが、視覚的理解の不整合による幻覚出力に悩まされることが多い。
本研究は,視覚表現学習の不十分さと視覚的注意のアライメントの低さという,この問題に寄与する2つの基本的な限界を同定する。
これらの問題に対処するために,ドメイン固有の Contrastive Language- Image Pre-Training (CLIP) モデルからMed-LVLM モデルへ視覚アライメント知識を伝達する,シンプルで軽量なアライメント蒸留フレームワーク MEDALIGN を提案する。
MEDALIGNは、視覚トークンレベルの類似性構造に基づく空間認識型視覚アライメント損失と、診断関連領域に注意を向ける注意認識型蒸留損失の2つの蒸留損失を導入している。
医療報告生成とVQA(英語版)ベンチマークの広範囲な実験により、MEDALIGNはパフォーマンスと解釈性の両方を一貫して改善し、より視覚的に根ざした出力が得られることが示された。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making [47.976936248969366]
最新のマルチモーダル言語モデル (MLLM) でさえ, 基本的な医療意思決定 (MDM) の課題に苦しむことを示す。
私たちの経験的研究は、テキストのみの推論が、視覚のみまたは視覚的テキスト設定よりも一貫して優れていることを示している。
これらの知見は、医療におけるマルチモーダル意思決定を改善するための有望な方向性を示している。
論文 参考訳(メタデータ) (2025-12-15T03:09:31Z) - Med-VCD: Mitigating Hallucination for Medical Large Vision Language Models through Visual Contrastive Decoding [0.8431877864777443]
医用LVLMにおける幻覚を、二次復号の時間的オーバーヘッドを伴わずに緩和する、疎視的復号法であるMed-VCDを導入する。
以上の結果から,Med-VCDは平均13%,幻覚精度は6%向上した。
論文 参考訳(メタデータ) (2025-12-01T17:40:03Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow [43.82288530883818]
EH-Benchmarkは、医学大言語モデルにおける幻覚を評価するために設計された新しい眼科ベンチマークである。
特定のタスクとエラータイプに基づいて幻覚を視覚的理解と論理的構成の2つの主要クラスに分類する。
我々のフレームワークは、両方の幻覚、精度、解釈可能性、信頼性を著しく軽減します。
論文 参考訳(メタデータ) (2025-07-24T12:07:36Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。