Fugu-MT 論文翻訳(概要): MIRA: A Novel Framework for Fusing Modalities in Medical RAG

論文の概要: MIRA: A Novel Framework for Fusing Modalities in Medical RAG

arxiv url: http://arxiv.org/abs/2507.07902v1
Date: Thu, 10 Jul 2025 16:33:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.490403
Title: MIRA: A Novel Framework for Fusing Modalities in Medical RAG
Title（参考訳）: MIRA:医学RAGにおけるモダリティの融合のための新しいフレームワーク
Authors: Jinhong Wang, Tajamul Ashraf, Zongyan Han, Jorma Laaksonen, Rao Mohammad Anwer,
Abstract要約: MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを提案する。 MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。
参考スコア（独自算出の注目度）: 6.044279952668295
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have significantly advanced AI-assisted medical diagnosis, but they often generate factually inconsistent responses that deviate from established medical knowledge. Retrieval-Augmented Generation (RAG) enhances factual accuracy by integrating external sources, but it presents two key challenges. First, insufficient retrieval can miss critical information, whereas excessive retrieval can introduce irrelevant or misleading content, disrupting model output. Second, even when the model initially provides correct answers, over-reliance on retrieved data can lead to factual errors. To address these issues, we introduce the Multimodal Intelligent Retrieval and Augmentation (MIRA) framework, designed to optimize factual accuracy in MLLM. MIRA consists of two key components: (1) a calibrated Rethinking and Rearrangement module that dynamically adjusts the number of retrieved contexts to manage factual risk, and (2) A medical RAG framework integrating image embeddings and a medical knowledge base with a query-rewrite module for efficient multimodal reasoning. This enables the model to effectively integrate both its inherent knowledge and external references. Our evaluation of publicly available medical VQA and report generation benchmarks demonstrates that MIRA substantially enhances factual accuracy and overall performance, achieving new state-of-the-art results. Code is released at https://github.com/mbzuai-oryx/MIRA.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、AIによる医療診断が大幅に進歩しているが、確立された医療知識から逸脱する、現実的に一貫性のない反応を生じることが多い。 Retrieval-Augmented Generation (RAG)は、外部ソースを統合することで、事実の精度を高めるが、2つの重要な課題が提示される。第一に、不十分な検索は重要な情報を見逃す可能性があるが、過剰な検索は無関係または誤解を招くコンテンツを導入し、モデル出力を乱す可能性がある。第二に、当初モデルが正しい回答を提供していたとしても、取得したデータに対する過度な信頼は事実エラーにつながる可能性がある。これらの問題に対処するために,MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを導入する。 MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。これにより、モデルは固有の知識と外部参照の両方を効果的に統合できる。医用VQAとレポート生成ベンチマークによる評価の結果,MIRAは事実の精度と全体的な性能を著しく向上し,新たな最先端の成果が得られた。コードはhttps://github.com/mbzuai-oryx/MIRAで公開されている。

関連論文リスト

MedMKEB: A Comprehensive Knowledge Editing Benchmark for Medical Multimodal Large Language Models [5.253788190589279]
MedMKEBは,知識編集の信頼性,汎用性,局所性,可搬性,堅牢性を評価するために設計された,最初の総合的なベンチマークである。 MedMKEBは高品質な医用視覚質問応答データセット上に構築されており、慎重に構築された編集タスクに富んでいる。ベンチマークの精度と信頼性を確保するために、人間の専門家による検証を組み込んだ。
論文参考訳（メタデータ） (2025-08-07T07:09:26Z)
MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA [17.823588070044217]
本稿では,医療質問応答システムを強化するためのプラグアンドプレイモジュールであるDisdisuss-RAGを提案する。本手法では,多ターンブレインストーミングをエミュレートする医療専門家のチームを編成し,検索内容の関連性を向上する要約エージェントを提案する。 4つのベンチマーク医学QAデータセットによる実験結果から、DEC-RAGはMedRAGより一貫して優れていた。
論文参考訳（メタデータ） (2025-04-30T01:37:44Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文参考訳（メタデータ） (2024-07-06T16:45:07Z)
RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文参考訳（メタデータ） (2024-02-19T06:57:02Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。