論文の概要: HeteroRAG: A Heterogeneous Retrieval-Augmented Generation Framework for Medical Vision Language Tasks
- arxiv url: http://arxiv.org/abs/2508.12778v1
- Date: Mon, 18 Aug 2025 09:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.169384
- Title: HeteroRAG: A Heterogeneous Retrieval-Augmented Generation Framework for Medical Vision Language Tasks
- Title(参考訳): HeteroRAG:医療ビジョン言語タスクのための不均一検索型生成フレームワーク
- Authors: Zhe Chen, Yusheng Liao, Shuyang Jiang, Zhiyuan Zhu, Haolin Li, Yanfeng Wang, Yu Wang,
- Abstract要約: We present HeteroRAG, a novel framework that enhances Med-LVLMs through heterogeneous knowledge sources。
HeteroRAGは、ほとんどの医療ビジョン言語ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.597677744620295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical large vision-language Models (Med-LVLMs) have shown promise in clinical applications but suffer from factual inaccuracies and unreliable outputs, posing risks in real-world diagnostics. While retrieval-augmented generation has emerged as a potential solution, current medical multimodal RAG systems are unable to perform effective retrieval across heterogeneous sources. The irrelevance of retrieved reports affects the factuality of analysis, while insufficient knowledge affects the credibility of clinical decision-making. To bridge the gap, we construct MedAtlas, which includes extensive multimodal report repositories and diverse text corpora. Based on it, we present HeteroRAG, a novel framework that enhances Med-LVLMs through heterogeneous knowledge sources. The framework introduces Modality-specific CLIPs for effective report retrieval and a Multi-corpora Query Generator for dynamically constructing queries for diverse corpora. Incorporating knowledge from such multifaceted sources, Med-LVLM is then trained with Heterogeneous Knowledge Preference Tuning to achieve cross-modality and multi-source knowledge alignment. Extensive experiments across 12 datasets and 3 modalities demonstrate that the proposed HeteroRAG achieves state-of-the-art performance in most medical vision language benchmarks, significantly improving factual accuracy and reliability of Med-LVLMs.
- Abstract(参考訳): 医療用大規模視覚言語モデル(Med-LVLMs)は、臨床応用において有望であるが、実際の不正確さと信頼できないアウトプットに悩まされ、現実世界の診断にリスクが生じる。
検索増強世代は潜在的な解決策として現れてきたが、現在の医療マルチモーダルRAGシステムは異種源間で効果的な検索を行うことができない。
検索された報告の無関係は分析の事実に影響を及ぼし、知識不足は臨床的意思決定の信頼性に影響を及ぼす。
このギャップを埋めるために,多モーダルなレポートレポジトリと多様なテキストコーパスを含むMedAtlasを構築した。
ヘテロラグ(HeteroRAG)は、ヘテロラグ(HeteroRAG)という、ヘテロラグ(HeteroRAG)と呼ばれるヘテロラグ(HeteroRAG)という、ヘテロラグ(HeteroRAG)という、ヘテロラグ(HeteroRAG)という、ヘテロラグ(HeteroRAG)という、ヘテロラグ(Hetero
このフレームワークは、効果的なレポート検索のためのModality-specific CLIPと、多様なコーパスに対するクエリを動的に構築するMulti-corpora Query Generatorを導入している。
このような多面的情報源から知識を取り入れたMed-LVLMは、異質な知識選好チューニングを用いて、異種間のモダリティと多元的知識アライメントを実現する。
12のデータセットと3つのモダリティにわたる大規模な実験により、提案されたHeteroRAGは、ほとんどの医療ビジョン言語ベンチマークにおいて最先端のパフォーマンスを実現し、Med-LVLMの事実精度と信頼性を著しく向上することを示した。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical Applications [21.534794098692842]
大規模言語モデルは、医学診断推論、研究知識獲得、臨床意思決定、消費者健康調査支援など、医療上の課題に取り組むことを約束している。
様々なソースの属性に合わせてコンテキストに適したクエリを定式化することを目的として,この課題に対処する。
既存のアプローチは、ソース計画を見落としているか、モデルがソースと実際のコンテンツに対する期待を誤っているため、効果的にそれを達成することができないかのいずれかである。
論文 参考訳(メタデータ) (2025-01-05T07:03:14Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records
Analysis via Large Language Models [19.62552013839689]
既存のモデルは、しばしば臨床上の課題に医学的文脈を欠いているため、外部知識の組み入れが促される。
本稿では、マルチモーダルEHR表現を強化するためのRAG(Retrieval-Augmented Generation)駆動フレームワークREALMを提案する。
MIMIC-III 死亡率と可読化タスクに関する実験は,ベースラインよりもREALM フレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-10T18:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。