論文の概要: RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2407.05131v2
- Date: Thu, 17 Oct 2024 01:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 23:35:45.145543
- Title: RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
- Title(参考訳): RULE:医療ビジョン言語モデルにおけるファクチュアリティのための信頼性の高いマルチモーダルRAG
- Authors: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao,
- Abstract要約: 現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
- 参考スコア(独自算出の注目度): 35.60385437194243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has enhanced medical diagnosis. However, current Med-LVLMs frequently encounter factual issues, often generating responses that do not align with established medical facts. Retrieval-Augmented Generation (RAG), which utilizes external knowledge, can improve the factual accuracy of these models but introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model's generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers. To address these issues, we propose RULE, which consists of two components. First, we introduce a provably effective strategy for controlling factuality risk through the calibrated selection of the number of retrieved contexts. Second, based on samples where over-reliance on retrieved contexts led to errors, we curate a preference dataset to fine-tune the model, balancing its dependence on inherent knowledge and retrieved contexts for generation. We demonstrate the effectiveness of RULE on medical VQA and report generation tasks across three datasets, achieving an average improvement of 47.4% in factual accuracy. We publicly release our benchmark and code in https://github.com/richard-peng-xia/RULE.
- Abstract(参考訳): 近年,医療用大規模視覚言語モデル (Med-LVLMs) が出現し,医学的診断が強化されている。
しかし、現在のMed-LVLMは、しばしば現実的な問題に遭遇し、確立された医療事実と一致しない応答をしばしば生み出す。
外部知識を利用した検索・拡張生成(RAG)は,これらのモデルの現実的精度を向上させるが,2つの大きな課題を提起する。
まず、限定された検索されたコンテキストは必要な情報をすべてカバーしないが、過剰な検索は無関係で不正確な参照を導入し、モデルの生成に干渉する。
第二に、モデルが元来正しく応答する場合、RAGを適用すると、取得したコンテキストに対する過度な信頼が得られ、誤った回答をもたらす可能性がある。
これらの問題に対処するために,2つのコンポーネントからなるRULEを提案する。
まず,検索したコンテキストの数を校正し,事実性リスクを制御するための有効な戦略を提案する。
第二に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整し、固有知識への依存と生成のための検索コンテキストのバランスをとる。
本稿では,医療用VQAにおけるRULEの有効性と3つのデータセットにおけるレポート生成タスクの有効性を実証し,47.4%の精度で平均的な改善を実現した。
ベンチマークとコードはhttps://github.com/richard-peng-xia/RULEで公開しています。
関連論文リスト
- Enhancing Health Information Retrieval with RAG by Prioritizing Topical Relevance and Factual Accuracy [0.7673339435080445]
本稿では, 科学的根拠に基づく健康関連文書の検索を促進するために, RAG(Retrieval-Augmented Generation)を駆使した手法を提案する。
特に,3段階のモデルを提案する。第1段階では,科学的文献によって構成された知識ベースから,利用者のクエリを用いて,関連した項目を検索する。
第2段階では、これらのパスは初期クエリとともにLLMによって処理され、コンテキストに関連のあるリッチテキスト(GenText)を生成する。
最終段階では、検索対象の文書を評価・ランク付けする。
論文 参考訳(メタデータ) (2025-02-07T05:19:13Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Rationale-Guided Retrieval Augmented Generation for Medical Question Answering [18.8818391508042]
大規模言語モデル(LLM)は、バイオメディシンの応用に大きな可能性を秘めている。
RAG$2$は、医学的文脈におけるRAGの信頼性を高めるための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-11-01T01:40:23Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Two-Layer Retrieval-Augmented Generation Framework for Low-Resource Medical Question Answering Using Reddit Data: Proof-of-Concept Study [4.769236554995528]
本稿では、健康関連トピックに関連する新たな問題に答える医療質問に対する検索強化世代アーキテクチャを提案する。
筆者らのフレームワークは,大量のユーザ生成ソーシャルメディアデータから医療質問に回答するために,個別の要約と集約された要約を生成する。
GPT-4 と Nous-Hermes-2-7B-DPO を用いて評価すると, 関連性, 長さ, 幻覚, 包括性, コヒーレンスに比較して高いスコアが得られた。
論文 参考訳(メタデータ) (2024-05-29T20:56:52Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。