論文の概要: Leveraging LLMs for Multimodal Retrieval-Augmented Radiology Report Generation via Key Phrase Extraction
- arxiv url: http://arxiv.org/abs/2504.07415v1
- Date: Thu, 10 Apr 2025 03:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:41.546418
- Title: Leveraging LLMs for Multimodal Retrieval-Augmented Radiology Report Generation via Key Phrase Extraction
- Title(参考訳): キーフレーズ抽出によるマルチモーダル検索拡張放射線学レポート作成のためのLCMの活用
- Authors: Kyoyun Choi, Byungmu Yoon, Soobum Kim, Jonggwon Park,
- Abstract要約: 本稿では,多モーダル検索と大規模言語モデルを活用した検索拡張生成手法を提案する。
本手法は, LLMを用いて放射線学報告から重要なフレーズを抽出し, 本質的な診断情報に効果的に焦点をあてる。
我々は、MIMIC-CXRデータセットに対するアプローチを評価し、CheXbertメトリクスと競合するRadGraph F1メトリクスの最先端結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automated radiology report generation (RRG) holds potential to reduce radiologists' workload, especially as recent advancements in large language models (LLMs) enable the development of multimodal models for chest X-ray (CXR) report generation. However, multimodal LLMs (MLLMs) are resource-intensive, requiring vast datasets and substantial computational cost for training. To address these challenges, we propose a retrieval-augmented generation approach that leverages multimodal retrieval and LLMs to generate radiology reports while mitigating hallucinations and reducing computational demands. Our method uses LLMs to extract key phrases from radiology reports, effectively focusing on essential diagnostic information. Through exploring effective training strategies, including image encoder structure search, adding noise to text embeddings, and additional training objectives, we combine complementary pre-trained image encoders and adopt contrastive learning between text and semantic image embeddings. We evaluate our approach on MIMIC-CXR dataset, achieving state-of-the-art results on CheXbert metrics and competitive RadGraph F1 metric alongside MLLMs, without requiring LLM fine-tuning. Our method demonstrates robust generalization for multi-view RRG, making it suitable for comprehensive clinical applications.
- Abstract(参考訳): 近年の大型言語モデル(LLM)の進歩は胸部X線(CXR)レポート生成のためのマルチモーダルモデルの開発を可能にしている。
しかし、MLLM(Multimodal LLM)はリソース集約型であり、トレーニングには膨大なデータセットと相当な計算コストを必要とする。
これらの課題に対処するために,幻覚を緩和し,計算要求を低減しつつ,マルチモーダル検索とLCMを利用して放射線学レポートを生成する検索強化手法を提案する。
本手法は, LLMを用いて放射線学報告から重要なフレーズを抽出し, 本質的な診断情報に効果的に焦点をあてる。
画像エンコーダ構造探索,テキスト埋め込みへのノイズ付加,学習目的の追加など,効果的なトレーニング戦略の探索を通じて,補完的な事前学習画像エンコーダを組み合わせるとともに,テキストとセマンティック画像埋め込み間のコントラスト学習を採用する。
我々は,MIMIC-CXRデータセットに対するアプローチを評価し,MLLMと競合するRadGraph F1メトリクスとCheXbertメトリクスの最先端結果を得る。
本手法は多視点RRGに対するロバストな一般化を示し,包括的臨床応用に適している。
関連論文リスト
- A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - LLM-RG4: Flexible and Factual Radiology Report Generation across Diverse Input Contexts [14.72366043711941]
現在の放射線学レポート生成モデルは、固定的なタスクパラダイムに制約されている。
本稿ではLLM-RG4という新しい大規模言語モデル(LLM)に基づくRRGフレームワークを提案する。
我々のモデルは入力非依存の幻覚を最小限に抑えているのに対し、現在のオープンソースモデルは一般的にこの問題に悩まされている。
論文 参考訳(メタデータ) (2024-12-16T17:29:51Z) - Best Practices for Large Language Models in Radiology [4.972411560978282]
様々な活動の鍵は、言語へのニュアンスな適用である。
大型言語モデル(LLM)の出現は、放射線学における膨大なデータの管理と解釈を改善する機会を提供する。
論文 参考訳(メタデータ) (2024-12-02T07:54:55Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Model driven Radiology Report Generation with Clinical Quality
Reinforcement Learning [16.849933628738277]
放射線学報告生成 (RRG) は, 放射線技師の作業量削減の可能性から注目されている。
本稿では,新しいRRG法である textbfLM-RRG について紹介する。
MIMIC-CXRおよびIU-Xrayデータセットを用いた実験により,本手法が技術状況よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-11T13:47:11Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。