論文の概要: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for Medical Diagnosis
- arxiv url: http://arxiv.org/abs/2508.17394v1
- Date: Sun, 24 Aug 2025 15:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.501307
- Title: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for Medical Diagnosis
- Title(参考訳): 一般目的視線モデルと医用診断用レトリバーの軽量共同最適化
- Authors: Nir Mazor, Tom Hope,
- Abstract要約: マルチモーダルレトリバーとLVLMを併用した医用診断モデルを開発した。
汎用バックボーンのみを用いて、軽量な微調整だけで、我々のモデルは競争的な結果を得ることができることを示す。
- 参考スコア(独自算出の注目度): 9.248806116103605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decision-making often involves interpreting images (e.g., radiology) for making diagnoses. Retrieving relevant visual information from medical literature and hospital records could enhance diagnostic accuracy. In this paper, we develop a model in which a multimodal retriever is jointly optimized with an LVLM for medical diagnosis, unlike standard RAG where LVLM error signal is not propagated down to the retriever. We show that using only general-purpose backbones, with only lightweight fine-tuning, our model is able to achieve competitive results with medically-pretrained models across clinical multi-label classification and visual question answering tasks. In a novel analysis, we additionally find that in many cases different top retrieved images each lead to different predictions for a given target, and that these cases are empirically challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these challenging cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code will be made publicly available.
- Abstract(参考訳): 臨床診断は、診断のために画像(例えば放射線学)を解釈することを伴うことが多い。
医療文献や病院記録から関連する視覚情報を取得することで、診断精度が向上する可能性がある。
本稿では,LVLMエラー信号がレトリバーに伝達されない標準的なRAGとは異なり,マルチモーダルレトリバーと診断用LVLMを併用したモデルを開発する。
本モデルは, 汎用バックボーンのみで, 軽量な微調整のみで, 臨床多ラベル分類と視覚的質問応答タスクにまたがって, 医学的に事前訓練されたモデルと競合する結果が得られることを示す。
新たな分析では、多くの場合、各トップ検索された画像は、与えられた対象に対して異なる予測を導き、これらのケースは、非検索モデルであっても、すべてのモデルに対して経験的に困難であることがわかった。
我々の共同検索最適化は、標準的なRAGよりもこれらの難問を大幅に改善する。
しかし、オラクル分析によれば、正しい診断はトップ検索された画像の1つを使って頻繁に達成できるが、実際にはオラクルとの大きなパフォーマンスギャップがあり、フロンティアのLVLMを使用したリランカーはこのギャップを埋めていない。
コードは公開されます。
関連論文リスト
- Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - Deep Learning with HM-VGG: AI Strategies for Multi-modal Image Analysis [10.01246918773756]
本研究では,緑内障早期診断のための最先端深層学習手法であるHybrid Multi-modal VGGモデルを提案する。
モデルの性能は、精度、精度、F1スコアにおける高い指標によって裏付けられている。
HM-VGGモデルは、医師に有望なツールを提供し、診断プロセスを合理化し、患者の結果を改善する。
論文 参考訳(メタデータ) (2024-10-31T15:42:24Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。