論文の概要: Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation
- arxiv url: http://arxiv.org/abs/2411.15490v1
- Date: Sat, 23 Nov 2024 08:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:13.999129
- Title: Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation
- Title(参考訳): 画像領域検索とテキスト領域拡張による3次元脳MRIレポート生成のファクタリティ向上
- Authors: Junhyeok Lee, Yujin Oh, Dahyoun Lee, Hyon Keun Joh, Chul-Ho Sohn, Sung Hyun Baik, Cheol Kyu Jung, Jung Hyun Park, Kyu Sung Choi, Byung-Hoon Kim, Jong Chul Ye,
- Abstract要約: 急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。
磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。
画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
- 参考スコア(独自算出の注目度): 42.13004422063442
- License:
- Abstract: Acute ischemic stroke (AIS) requires time-critical management, with hours of delayed intervention leading to an irreversible disability of the patient. Since diffusion weighted imaging (DWI) using the magnetic resonance image (MRI) plays a crucial role in the detection of AIS, automated prediction of AIS from DWI has been a research topic of clinical importance. While text radiology reports contain the most relevant clinical information from the image findings, the difficulty of mapping across different modalities has limited the factuality of conventional direct DWI-to-report generation methods. Here, we propose paired image-domain retrieval and text-domain augmentation (PIRTA), a cross-modal retrieval-augmented generation (RAG) framework for providing clinician-interpretative AIS radiology reports with improved factuality. PIRTA mitigates the need for learning cross-modal mapping, which poses difficulty in image-to-text generation, by casting the cross-modal mapping problem as an in-domain retrieval of similar DWI images that have paired ground-truth text radiology reports. By exploiting the retrieved radiology reports to augment the report generation process of the query image, we show by experiments with extensive in-house and public datasets that PIRTA can accurately retrieve relevant reports from 3D DWI images. This approach enables the generation of radiology reports with significantly higher accuracy compared to direct image-to-text generation using state-of-the-art multimodal language models.
- Abstract(参考訳): 急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。
磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。
画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
本稿では, 画像領域検索とテキスト領域拡張(PIRTA)を併用した画像領域検索とRAGフレームワークを提案する。
PIRTAは、画像からテキストへの変換が困難であるクロスモーダルマッピングの学習の必要性を軽減し、このクロスモーダルマッピング問題を、地上真実のテキストラジオグラフィーレポートをペアにした類似DWI画像のドメイン内検索としてキャストする。
検索した放射線学レポートを利用してクエリ画像のレポート生成プロセスを増強することにより、PIRTAが3次元DWI画像から関連レポートを正確に検索できる広範囲な社内および公開データセットの実験により示す。
このアプローチにより,最新のマルチモーダル言語モデルを用いた画像からテキストへの直接生成と比較して,ラジオグラフィーレポートの精度が大幅に向上する。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。