論文の概要: Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2602.15650v1
- Date: Tue, 17 Feb 2026 15:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.106488
- Title: Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation
- Title(参考訳): 概念強化型マルチモーダルRAG : 解釈可能かつ正確な放射線診断レポート作成に向けて
- Authors: Marco Salmè, Federico Siciliano, Fabrizio Silvestri, Paolo Soda, Rosa Sicilia, Valerio Guarrasi,
- Abstract要約: VLM(Vision-Language Models)による放射線学レポート生成は、ドキュメントの負担軽減、レポートの一貫性の向上、臨床導入の加速を約束する。
既存の研究では、解釈可能性と精度を別々の目的として扱い、概念に基づく説明可能性技術は透明性に重点を置いている。
本稿では,視覚表現を解釈可能な臨床概念に分解する統合フレームワークであるCEMRAG(Concept-Enhanced Multimodal RAG)を提案する。
- 参考スコア(独自算出の注目度): 12.226029763256962
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Radiology Report Generation (RRG) through Vision-Language Models (VLMs) promises to reduce documentation burden, improve reporting consistency, and accelerate clinical workflows. However, their clinical adoption remains limited by the lack of interpretability and the tendency to hallucinate findings misaligned with imaging evidence. Existing research typically treats interpretability and accuracy as separate objectives, with concept-based explainability techniques focusing primarily on transparency, while Retrieval-Augmented Generation (RAG) methods targeting factual grounding through external retrieval. We present Concept-Enhanced Multimodal RAG (CEMRAG), a unified framework that decomposes visual representations into interpretable clinical concepts and integrates them with multimodal RAG. This approach exploits enriched contextual prompts for RRG, improving both interpretability and factual accuracy. Experiments on MIMIC-CXR and IU X-Ray across multiple VLM architectures, training regimes, and retrieval configurations demonstrate consistent improvements over both conventional RAG and concept-only baselines on clinical accuracy metrics and standard NLP measures. These results challenge the assumed trade-off between interpretability and performance, showing that transparent visual concepts can enhance rather than compromise diagnostic accuracy in medical VLMs. Our modular design decomposes interpretability into visual transparency and structured language model conditioning, providing a principled pathway toward clinically trustworthy AI-assisted radiology.
- Abstract(参考訳): VLM(Vision-Language Models)による放射線学報告生成(RRG)は、ドキュメントの負担軽減、レポートの一貫性の向上、臨床ワークフローの高速化を約束する。
しかし, 診断可能性の欠如や, 画像証拠と一致しない所見を幻覚させる傾向により, 臨床応用は依然として限られている。
既存の研究は、解釈可能性と精度を別個の目的として扱うのが一般的であり、概念に基づく説明可能性技術は主に透明性に焦点を当てている。
本稿では, 視覚表現を解釈可能な臨床概念に分解し, マルチモーダルRAGと統合する統合フレームワークである概念拡張マルチモーダルRAG(CEMRAG)を提案する。
このアプローチは、RRGの豊富な文脈的プロンプトを利用し、解釈可能性と事実的正確性の両方を改善する。
MIMIC-CXRとIU X線による複数のVLMアーキテクチャ、トレーニング体制、検索構成の実験は、従来のRAGと臨床精度測定と標準NLP測定の基準線の両方に対して一貫した改善を示した。
これらの結果から,医療用VLMの診断精度を損なうことなく,透明な視覚概念を向上できる可能性が示唆された。
我々のモジュール設計は、解釈可能性を視覚的透明性と構造化言語モデルコンディショニングに分解し、臨床に信頼できるAI支援放射線学への原則的な経路を提供する。
関連論文リスト
- Interpretable Unsupervised Deformable Image Registration via Confidence-bound Multi-Hop Visual Reasoning [1.6939372704265414]
教師なしの変形可能な画像登録には、参照ラベルなしで複雑な解剖学的構造を整列する必要がある。
既存のディープラーニング手法は精度は高いが透明性を欠くことが多く、誤りの漂流と臨床信頼の低下につながる。
本稿では,段階的推論プロセスとして登録を再構成する新しいマルチホップ・ビジュアル・チェイン・オブ・推論・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T14:41:19Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Interpretable Clinical Classification with Kolgomorov-Arnold Networks [70.72819760172744]
Kolmogorov-Arnold Networks (KAN) は、透明で象徴的な表現を通じて固有の解釈能力を提供する。
Kansは、組み込みの患者レベルの洞察、直感的な可視化、最寄りの患者の検索をサポートする。
これらの結果は、カンを、臨床医が理解し、監査し、行動できる信頼できるAIへの有望なステップと位置づけている。
論文 参考訳(メタデータ) (2025-09-20T17:21:58Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。
我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。
我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文 参考訳(メタデータ) (2025-05-03T06:18:12Z) - CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models [1.7042756021131187]
本稿では,CBM(Concept Bottleneck Models)とRAG(Multi-Agent Retrieval-Augmented Generation)システムを組み合わせた自動放射線学レポート生成フレームワークを提案する。
CBMは胸部X線の特徴を人間の理解できない臨床概念にマッピングし、透明な疾患分類を可能にする。
RAGシステムはマルチエージェントのコラボレーションと外部知識を統合し、文脈的にリッチなエビデンスベースのレポートを生成する。
論文 参考訳(メタデータ) (2025-04-29T16:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。