論文の概要: Grounded Multimodal Retrieval-Augmented Drafting of Radiology Impressions Using Case-Based Similarity Search
- arxiv url: http://arxiv.org/abs/2603.17765v1
- Date: Wed, 18 Mar 2026 14:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.756176
- Title: Grounded Multimodal Retrieval-Augmented Drafting of Radiology Impressions Using Case-Based Similarity Search
- Title(参考訳): ケースベース類似性探索を用いた複数モーダル検索による放射線学印象の抽出
- Authors: Himadri Samanta,
- Abstract要約: 胸部X線写真印象の接地起草のためのマルチモーダル検索拡張生成システム(RAG)を提案する。
このシステムは、画像テキストのコントラスト埋め込み、ケースベースの類似性検索、引用制約付きドラフト生成を組み合わせることで、過去の放射線学レポートと事実整合性を確保する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated radiology report generation has gained increasing attention with the rise of deep learning and large language models. However, fully generative approaches often suffer from hallucinations and lack clinical grounding, limiting their reliability in real-world workflows. In this study, we propose a multimodal retrieval-augmented generation (RAG) system for grounded drafting of chest radiograph impressions. The system combines contrastive image-text embeddings, case-based similarity retrieval, and citation-constrained draft generation to ensure factual alignment with historical radiology reports. A curated subset of the MIMIC-CXR dataset was used to construct a multimodal retrieval database. Image embeddings were generated using CLIP encoders, while textual embeddings were derived from structured impression sections. A fusion similarity framework was implemented using FAISS indexing for scalable nearest-neighbor retrieval. Retrieved cases were used to construct grounded prompts for draft impression generation, with safety mechanisms enforcing citation coverage and confidence-based refusal. Experimental results demonstrate that multimodal fusion significantly improves retrieval performance compared to image-only retrieval, achieving Recall@5 above 0.95 on clinically relevant findings. The grounded drafting pipeline produces interpretable outputs with explicit citation traceability, enabling improved trustworthiness compared to conventional generative approaches. This work highlights the potential of retrieval-augmented multimodal systems for reliable clinical decision support and radiology workflow augmentation
- Abstract(参考訳): ディープラーニングや大規模言語モデルの台頭に伴い,自動放射線学レポート生成が注目されている。
しかし、完全な生成的アプローチは幻覚に悩まされ、臨床基盤が欠如し、現実のワークフローにおける信頼性が制限される。
本研究では,胸部X線写真印象の接地起草のためのマルチモーダル検索拡張生成システム(RAG)を提案する。
このシステムは、画像テキストのコントラスト埋め込み、ケースベースの類似性検索、引用制約付きドラフト生成を組み合わせることで、過去の放射線学レポートと事実整合性を確保する。
MIMIC-CXRデータセットのキュレートされたサブセットを使用して、マルチモーダル検索データベースを構築した。
画像埋め込みはCLIPエンコーダを用いて生成され、テキスト埋め込みは構造化された印象区間から導出された。
FAISSインデクシングを用いて近距離検索のための融合類似性フレームワークを実装した。
検索された事例は、引用カバレッジと信頼に基づく拒絶を強制する安全機構を備えた、ドラフトインプレッション生成のための基礎的なプロンプトを構築するために使用された。
画像のみの検索と比較して, マルチモーダルフュージョンは検索性能を有意に向上し, 臨床所見では Recall@5 が 0.95 以上であった。
接地された起草パイプラインは、明示的な引用トレーサビリティを持つ解釈可能な出力を生成し、従来の生成アプローチと比較して信頼性を向上させる。
本研究は、信頼性の高い臨床診断支援と放射線学ワークフロー強化のための検索強化マルチモーダルシステムの可能性を強調した。
関連論文リスト
- BayesRAG: Probabilistic Mutual Evidence Corroboration for Multimodal Retrieval-Augmented Generation [33.53566598271416]
BayesRAGはベイズ推定とデンプスター・シェーファーのエビデンス理論に基づく新しいマルチモーダル検索フレームワークである。
我々は,BayesRAGがマルチモーダルベンチマークにおいて,最先端(SOTA)手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-12T08:53:14Z) - Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - Generative vector search to improve pathology foundation models across multimodal vision-language tasks [0.0]
本稿では,検索性能を向上させるためにクエリ条件付き埋め込みをサンプリングする生成ベクトル探索手法であるLatent Matching(STHLM)を提案する。
STHLMは、科学的文献、臨床ノート、組織像を含む様々なベンチマークにおいて、古典的ベクトル検索よりも重要な改善を示す。
論文 参考訳(メタデータ) (2025-12-22T12:59:23Z) - Ontology-Based Concept Distillation for Radiology Report Retrieval and Labeling [10.504309161945065]
既存のほとんどの手法は、CLIPやCXR-BERTのようなモデルからの高次元テキスト埋め込みを比較することに依存している。
統一医療言語システム(Unified Medical Language System)における臨床基礎概念に基づく放射線学報告テキストの比較のための,新しいオントロジーによる代替案を提案する。
本稿では,RadGraph-XLとSapBERTをベースとした拡張パイプラインを用いて,フリーテキストレポートから標準化された医療機関を抽出する。
論文 参考訳(メタデータ) (2025-08-27T14:20:50Z) - Privacy-Preserving Chest X-ray Report Generation via Multimodal Federated Learning with ViT and GPT-2 [0.1874930567916036]
IU-Xrayデータセットを用いた胸部X線レポート生成のためのマルチモーダルフェデレートラーニングフレームワークを提案する。
このシステムは、ヴィジュアルトランスフォーマー(ViT)をエンコーダとして、GPT-2をレポートジェネレータとして使用し、生データを共有せずに分散トレーニングを可能にする。
その結果、FLは臨床的に関連性があり、セマンティックにリッチな放射線学レポートを作成する際に、集中型モデルと一致または超えることができることがわかった。
論文 参考訳(メタデータ) (2025-05-27T20:01:12Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。