論文の概要: MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2410.13085v1
- Date: Wed, 16 Oct 2024 23:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:31.005794
- Title: MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
- Title(参考訳): MMed-RAG:医療ビジョン言語モデルのためのマルチモーダルマルチモーダルRAGシステム
- Authors: Peng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao,
- Abstract要約: 近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
- 参考スコア(独自算出の注目度): 49.765466293296186
- License:
- Abstract: Artificial Intelligence (AI) has demonstrated significant potential in healthcare, particularly in disease diagnosis and treatment planning. Recent progress in Medical Large Vision-Language Models (Med-LVLMs) has opened up new possibilities for interactive diagnostic tools. However, these models often suffer from factual hallucination, which can lead to incorrect diagnoses. Fine-tuning and retrieval-augmented generation (RAG) have emerged as methods to address these issues. However, the amount of high-quality data and distribution shifts between training data and deployment data limit the application of fine-tuning methods. Although RAG is lightweight and effective, existing RAG-based approaches are not sufficiently general to different medical domains and can potentially cause misalignment issues, both between modalities and between the model and the ground truth. In this paper, we propose a versatile multimodal RAG system, MMed-RAG, designed to enhance the factuality of Med-LVLMs. Our approach introduces a domain-aware retrieval mechanism, an adaptive retrieved contexts selection method, and a provable RAG-based preference fine-tuning strategy. These innovations make the RAG process sufficiently general and reliable, significantly improving alignment when introducing retrieved contexts. Experimental results across five medical datasets (involving radiology, ophthalmology, pathology) on medical VQA and report generation demonstrate that MMed-RAG can achieve an average improvement of 43.8% in the factual accuracy of Med-LVLMs. Our data and code are available in https://github.com/richard-peng-xia/MMed-RAG.
- Abstract(参考訳): 人工知能(AI)は医療、特に疾患の診断と治療計画において大きな可能性を示してきた。
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
しかし、これらのモデルは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
これらの問題に対処する方法として、微調整・検索強化世代(RAG)が出現している。
しかしながら、トレーニングデータとデプロイメントデータの間の高品質なデータと分散シフトの量は、微調整手法の適用を制限する。
RAGは軽量かつ効果的であるが、既存のRAGベースのアプローチは、異なる医療領域に対して十分な一般性を持たず、モダリティとモデルと基礎的真理の両方において、誤った調整問題を引き起こす可能性がある。
本稿では,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
提案手法では,ドメイン認識型検索機構,適応型検索コンテキスト選択方式,RAGに基づく選好微調整方式を導入している。
これらの革新により、RAGプロセスは十分に汎用的で信頼性が高く、取得したコンテキストを導入する際のアライメントを大幅に改善する。
医療用VQAの5つの医学データセット(放射線学、眼科、病理学を含む)に対する実験の結果、MMed-RAGはMed-LVLMの実際の精度で平均43.8%改善できることが示された。
私たちのデータとコードはhttps://github.com/richard-peng-xia/MMed-RAGで公開されています。
関連論文リスト
- GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - Cross-Modal Domain Adaptation in Brain Disease Diagnosis: Maximum Mean Discrepancy-based Convolutional Neural Networks [0.0]
脳障害は世界の健康にとって大きな課題であり、毎年何百万人もの死者を出している。
これらの疾患の正確な診断は、MRIやCTのような高度な医療画像技術に大きく依存している。
注釈付きデータの不足は、診断のための機械学習モデルをデプロイする上で大きな課題となる。
論文 参考訳(メタデータ) (2024-05-06T07:44:46Z) - DGM-DR: Domain Generalization with Mutual Information Regularized
Diabetic Retinopathy Classification [40.35834579068518]
トレーニングとテストデータのドメインシフトは、一般的なディープラーニングモデルをトレーニングする上で大きな課題となる。
医用画像領域に事前訓練されたモデルとしてモデル目的関数を再確立するDG法を提案する。
提案手法は,従来の最先端技術よりも平均精度5.25%,標準偏差が低い。
論文 参考訳(メタデータ) (2023-09-18T11:17:13Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。