論文の概要: LiteMedCoT-VL: Parameter-Efficient Adaptation for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2605.09384v1
- Date: Sun, 10 May 2026 07:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.222276
- Title: LiteMedCoT-VL: Parameter-Efficient Adaptation for Medical Visual Question Answering
- Title(参考訳): LiteMedCoT-VL: 医用視覚質問応答に対するパラメータ効率適応
- Authors: Runze Ma, Shunbo Jia, Haonan Lyu, Guo Liu, Caizhi Liao,
- Abstract要約: 235Bの教師モデルから2Bの学生モデルへの連鎖推論を伝達するパイプラインである LiteMedCoT-VL を紹介する。
PMC-VQAベンチマークでは、LiteMedCoT-VLは64.9%の精度で、ゼロショットのQwen3-VL-4Bベースラインの53.9%を11.0ポイント上回っている。
- 参考スコア(独自算出の注目度): 1.0559587981237513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reasoning gap between large and compact vision-language models (VLMs) limits the deployment of medical AI on portable clinical devices. Compact VLMs of 2--4B parameters can run on resource-constrained hardware but lack the multi-step reasoning capacity needed for interpretable clinical decision support. Existing knowledge distillation methods transfer answers without the reasoning process behind them. Medical visual question answering (VQA) serves as a testbed for this problem, as it requires models to integrate visual evidence with clinical knowledge through structured reasoning chains. We introduce LiteMedCoT-VL, a pipeline that transfers chain-of-thought reasoning from a 235B teacher model to 2B student models through LoRA-based fine-tuning on explanation-enriched training data. All inference is conducted without image captions by default, simulating the clinical scenario in which a physician interprets a medical image directly without an accompanying radiology report. On the PMC-VQA benchmark, LiteMedCoT-VL achieves 64.9% accuracy, exceeding the zero-shot Qwen3-VL-4B baseline of 53.9% by 11.0 percentage points and outperforming all published baselines. This result indicates that a 2B model with reasoning distillation can match or exceed models with twice the parameters. Visual grounding analysis shows that the model relies on image content rather than exploiting textual priors. Our code is publicly available at https://anonymous.4open.science/r/LiteMedCoT-VL.
- Abstract(参考訳): 大規模かつコンパクトな視覚言語モデル(VLM)間の推論ギャップは、医療AIのポータブルな臨床機器への展開を制限する。
2--4BパラメータのコンパクトなVLMは、リソース制約のあるハードウェア上で動作できるが、解釈可能な臨床診断支援に必要な多段階推論能力は欠如している。
既存の知識蒸留法は、その背後にある推論過程を使わずに答えを伝達する。
医学的視覚的質問応答(VQA)は、構造的推論連鎖を通じて視覚的証拠と臨床知識を統合するモデルを必要とするため、この問題の検査台として機能する。
235B の教師モデルから 2B の学生モデルへのチェーン・オブ・シント推論を LoRA ベースの微調整による説明強化学習データを通じて伝達するパイプライン LiteMedCoT-VL を紹介する。
全ての推論はデフォルトで画像キャプションなしで行われ、医師が付随する放射線学報告なしで医師が医療画像を直接解釈する臨床シナリオをシミュレートする。
PMC-VQAベンチマークでは、LiteMedCoT-VLは64.9%の精度で、ゼロショットのQwen3-VL-4Bベースラインを53.9%の11.0ポイントで上回り、全てのベースラインを上回ります。
この結果は, 蒸留を推算した2Bモデルが2倍のパラメータを持つモデルと一致するか, あるいは超える可能性があることを示唆している。
視覚的グラウンドニング分析は、このモデルがテキストの先行情報を活用するのではなく、画像コンテンツに依存していることを示している。
私たちのコードはhttps://anonymous.4open.science/r/LiteMedCoT-VLで公開されています。
関連論文リスト
- S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning [34.6490677122246]
医用視覚質問応答における不安定性について,現在の医用視覚言語モデル (Med-VLMs) を用いて検討した。
本稿では,知識適応型一貫性学習とバイアス認識型コントラスト学習を統合した一貫性・コントラスト学習(CCL)を提案する。
CCLは3つの人気のあるVQAベンチマークでSOTAのパフォーマンスを達成し、特にRoMedテストセットで解の一貫性を50%向上させる。
論文 参考訳(メタデータ) (2025-08-26T05:21:19Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks [6.8948885302235325]
本稿では,入力医療画像と自然事前学習型視覚モデルとのギャップを埋めるために視覚刺激(VP)を導入する。
本稿では,分類損失と差分損失を含む共同学習損失関数を設計し,インパルス画像とプレーン画像のばらつきを記述した。
分布医学データセットの内訳では,本手法(90.33%)はFF(85.15%)を5.18%リードで上回りうる。
論文 参考訳(メタデータ) (2024-05-13T01:18:25Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease
Diagnosis [42.917164607812886]
ヴィジュアル・アンド・ランゲージ(V&L)モデルは、画像とテキストを入力として取り、それら間の関連を捉えることを学ぶ。
BERTHopは、PixelHop++とVisualBERTをベースとしたトランスフォーマーベースのモデルで、2つのモダリティ間の関連をよりよく捉える。
論文 参考訳(メタデータ) (2021-08-10T21:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。