論文の概要: Data-Efficient Fine-Tuning of Vision-Language Models for Diagnosis of Alzheimer's Disease
- arxiv url: http://arxiv.org/abs/2509.07613v1
- Date: Tue, 09 Sep 2025 11:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.284088
- Title: Data-Efficient Fine-Tuning of Vision-Language Models for Diagnosis of Alzheimer's Disease
- Title(参考訳): アルツハイマー病診断のための視覚・言語モデルのデータ効率の良い微調整
- Authors: Fangqi Cheng, Surajit Ray, Xiaochen Yang,
- Abstract要約: 医用視覚言語モデル(Med-VLMs)は、レポート生成や視覚的質問応答といったタスクにおいて印象的な結果を示している。
既存のモデルの多くは、スクラッチからトレーニングされるか、大規模な2D画像テキストペアで微調整される。
3次元CTを用いたMed-VLMを3次元MRIに適用するためのデータ効率の良い微調整パイプラインを提案し,そのアルツハイマー病診断への応用を実証した。
- 参考スコア(独自算出の注目度): 3.46857682956989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models (Med-VLMs) have shown impressive results in tasks such as report generation and visual question answering, but they still face several limitations. Most notably, they underutilize patient metadata and lack integration of clinical diagnostic knowledge. Moreover, most existing models are typically trained from scratch or fine-tuned on large-scale 2D image-text pairs, requiring extensive computational resources, and their effectiveness on 3D medical imaging is often limited due to the absence of structural information. To address these gaps, we propose a data-efficient fine-tuning pipeline to adapt 3D CT-based Med-VLMs for 3D MRI and demonstrate its application in Alzheimer's disease (AD) diagnosis. Our system introduces two key innovations. First, we convert structured metadata into synthetic reports, enriching textual input for improved image-text alignment. Second, we add an auxiliary token trained to predict the mini-mental state examination (MMSE) score, a widely used clinical measure of cognitive function that correlates with AD severity. This provides additional supervision for fine-tuning. Applying lightweight prompt tuning to both image and text modalities, our approach achieves state-of-the-art performance on two AD datasets using 1,500 training images, outperforming existing methods fine-tuned on 10,000 images. Code will be released upon publication.
- Abstract(参考訳): 医療ビジョン言語モデル(Med-VLMs)は、レポート生成や視覚的質問応答といったタスクにおいて印象的な結果を示しているが、それでもいくつかの制限に直面している。
とりわけ、患者メタデータを弱用し、臨床診断知識の統合を欠いている。
さらに、既存のモデルの多くは、大規模な2次元画像テキストペアでスクラッチや微調整で訓練されており、膨大な計算資源を必要としている。
これらのギャップに対処するために,3次元CTベースのMed-VLMを3次元MRIに適用するためのデータ効率の良い微調整パイプラインを提案し,そのアルツハイマー病(AD)診断への応用を実証した。
私たちのシステムは2つの重要なイノベーションを導入します。
まず,構造化メタデータを合成レポートに変換し,画像テキストアライメントを改善するためにテキスト入力を充実させる。
第2に,AD重症度と相関する認知機能の臨床的指標であるMMSE(Mini-mental State Examination)スコアを予測するために訓練された補助トークンを追加する。
これは微調整のための追加の監督を提供する。
画像とテキストのモダリティの両方に軽量なプロンプトチューニングを適用することで、1500のトレーニング画像を用いて2つのADデータセット上での最先端のパフォーマンスを実現し、1万のイメージで微調整された既存手法よりも優れています。
コードは出版時に公開される。
関連論文リスト
- M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。