論文の概要: VITAL: Visual-Semantic Dual Supervision for Enhanced and Interpretable Latent Reasoning in Medical MLLMs
- arxiv url: http://arxiv.org/abs/2605.28422v1
- Date: Wed, 27 May 2026 12:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.057148
- Title: VITAL: Visual-Semantic Dual Supervision for Enhanced and Interpretable Latent Reasoning in Medical MLLMs
- Title(参考訳): VITAL:医療MLLMにおける拡張・解釈可能な潜時推論のための視覚的意味的デュアルビジョン
- Authors: Qiaoru Li, Shaotian Liang, Jintao Chen, Haoran Sun, Yuxiang Cai, Jianwei Yin, Yankai Jiang,
- Abstract要約: VITALは、ビジュアル・セマンティック二重監視を備えた医療MLLMのための潜在空間推論フレームワークである。
我々は、9つの画像モダリティにまたがる61Kデータセットを構築し、それ以前の医用視覚遅延推論データセットを桁違いに超えた。
- 参考スコア(独自算出の注目度): 42.047738141438344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent reasoning enables reasoning over continuous hidden states rather than explicit tokens, avoiding the language bottleneck and inference overhead of chain-of-thought for medical VQA. However, existing methods suffer from modality collapse, insufficient visual supervision, and train-inference mismatch. Moreover, their opaque latent states offer no interpretability, which is critical in clinical applications. We propose VITAL, a latent-space reasoning framework for medical MLLMs with visual-semantic dual supervision: an auxiliary text decoder reconstructs reasoning chains from latent states, while a visual projector regresses ROI features from a frozen, independent medical vision encoder. Both modules are discarded at inference with zero overhead, yet can be re-attached post-hoc for dual interpretability, providing textual and visual explanations of the reasoning process without sacrificing efficiency. We construct a 61K dataset spanning 9 imaging modalities, exceeding prior medical visual latent reasoning datasets by an order of magnitude. Experiments on 7 benchmarks show that VITAL consistently and substantially outperforms the backbone, all latent reasoning baselines, and medical MLLMs trained on far larger data, achieving state-of-the-art results competitive with trillion-parameter proprietary models.
- Abstract(参考訳): 潜在推論により、明示的なトークンではなく、連続的な隠れ状態の推論が可能になり、医療用VQAのチェーンの言語のボトルネックや推論オーバーヘッドを回避することができる。
しかし、既存の手法は、モダリティの崩壊、視覚的監督の不十分、および列車の干渉ミスマッチに悩まされている。
さらに、不透明な潜伏状態は、臨床的応用において重要な解釈可能性を提供しない。
補助テキストデコーダは潜在状態からの推論チェーンを再構成し,視覚プロジェクタは凍結した独立型医療ビジョンエンコーダからROI特徴を回帰する。
どちらのモジュールもオーバーヘッドがゼロの推論で破棄されるが、二重解釈可能性のためにポストホックに再設定することができ、効率を犠牲にすることなく推論プロセスのテキスト的および視覚的説明を提供する。
我々は、9つの画像モダリティにまたがる61Kデータセットを構築し、それ以前の医用視覚遅延推論データセットを桁違いに超えた。
7つのベンチマークでの実験では、VITALはバックボーン、潜在的推論ベースライン、医療MLLMを一貫して上回り、1兆パラメートルのプロプライエタリなモデルと競合する最先端の結果を達成している。
関連論文リスト
- Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering [8.481971263315854]
textscMedLVRは、自動テキストデコーディングに明示的な視覚的エビデンス状態を導入する。
潜在的な視覚的推論は、診断に関連のある視覚的証拠を保存するための効果的なメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-10T16:03:03Z) - MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning [15.624413588040753]
医療ビジョンランゲージモデル(VLM)は、複雑な臨床業務において大きな可能性を秘めている。
彼らの推論能力は、しばしばテキストのみのパラダイムによって制約される。
この制限は、きめ細かい視覚分析を必要とするタスクのパフォーマンスを抑えるだけでなく、安全クリティカルなアプリケーションにおける視覚幻覚のリスクも引き起こす。
医用VLMのアノテーションのない視覚的推論を可能にする新しい強化学習フレームワークであるMedVRを紹介する。
論文 参考訳(メタデータ) (2026-04-09T13:04:49Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - Enhancing Medical Large Vision-Language Models via Alignment Distillation [30.592211423687246]
我々は,Med-LVLMの領域固有のコントラスト言語-画像事前学習モデルから視覚的アライメントの知識を伝達するためのMEDALIGNを提案する。
MEDALIGNは,医療報告生成と医用視覚質問応答ベンチマークの実験により,パフォーマンスと解釈性の両方を一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-12-21T00:57:13Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。