論文の概要: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
- arxiv url: http://arxiv.org/abs/2508.17394v3
- Date: Sat, 11 Oct 2025 18:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.22578
- Title: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
- Title(参考訳): RAGに基づく診断のための汎用視線モデルとレトリバーの軽量共同最適化
- Authors: Nir Mazor, Tom Hope,
- Abstract要約: 医用診断用LVLMを併用したマルチモーダル検索モデルを開発した。
異なるトップ検索された画像は、しばしば同じターゲットに対して異なる予測をもたらす。
本モデルは,臨床分類とVQAタスクに関する医学的に事前訓練されたモデルと競合する結果を得る。
- 参考スコア(独自算出の注目度): 9.248806116103605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
- Abstract(参考訳): 医療文献や病院記録から関連した視覚的・テキスト的情報を取得することで、臨床画像解釈の精度を高めることができる。
我々は,LVLMエラーを検索者にバックプロパゲートしない標準的なRAGとは異なり,LVLMと共同最適化したマルチモーダル検索モデルを開発した。
軽微調整を施した汎用バックボーンのみを用いて,臨床分類とVQAタスクに関する医学的に事前訓練されたモデルと競合する結果が得られる。
新たな分析では、異なるトップ検索された画像は、しばしば同じターゲットに対して異なる予測をもたらすことがあり、これらのケースは、非検索モデルであっても、すべてのモデルに対して困難であることがわかった。
我々の共同検索の最適化は、標準的なRAGよりも、これらのケースを大幅に改善します。
しかし、オラクル分析によれば、正しい診断はトップ検索された画像の1つを使って頻繁に達成できるが、実際にはオラクルとの大きなパフォーマンスギャップがあり、フロンティアのLVLMを使用したリランカーはこのギャップを埋めていない。
コードはhttps://github.com/Nirmaz/JOMED.comで公開されている。
関連論文リスト
- Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - Deep Learning with HM-VGG: AI Strategies for Multi-modal Image Analysis [10.01246918773756]
本研究では,緑内障早期診断のための最先端深層学習手法であるHybrid Multi-modal VGGモデルを提案する。
モデルの性能は、精度、精度、F1スコアにおける高い指標によって裏付けられている。
HM-VGGモデルは、医師に有望なツールを提供し、診断プロセスを合理化し、患者の結果を改善する。
論文 参考訳(メタデータ) (2024-10-31T15:42:24Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。