論文の概要: Bridging Vision and Language: Optimal Transport-Driven Radiology Report Generation via LLMs
- arxiv url: http://arxiv.org/abs/2507.03908v1
- Date: Sat, 05 Jul 2025 05:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.932473
- Title: Bridging Vision and Language: Optimal Transport-Driven Radiology Report Generation via LLMs
- Title(参考訳): ブリッジングビジョンと言語: LLMによる最適輸送駆動放射線学レポート作成
- Authors: Haifeng Zhao, Yufei Zhang, Leilei Ma, Shuo Xu, Dengdi Sun,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著な性能を示している。
本稿では, 画像特徴を報告から抽出した疾患ラベルと整合させるため, OTDRG(Optimal Transport-Driven Radiology Report Generation)を提案する。
OTDRGは、自然言語生成(NLG)と臨床効果(CE)の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.273291010923853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation represents a significant application within medical AI, and has achieved impressive results. Concurrently, large language models (LLMs) have demonstrated remarkable performance across various domains. However, empirical validation indicates that general LLMs tend to focus more on linguistic fluency rather than clinical effectiveness, and lack the ability to effectively capture the relationship between X-ray images and their corresponding texts, thus resulting in poor clinical practicability. To address these challenges, we propose Optimal Transport-Driven Radiology Report Generation (OTDRG), a novel framework that leverages Optimal Transport (OT) to align image features with disease labels extracted from reports, effectively bridging the cross-modal gap. The core component of OTDRG is Alignment \& Fine-Tuning, where OT utilizes results from the encoding of label features and image visual features to minimize cross-modal distances, then integrating image and text features for LLMs fine-tuning. Additionally, we design a novel disease prediction module to predict disease labels contained in X-ray images during validation and testing. Evaluated on the MIMIC-CXR and IU X-Ray datasets, OTDRG achieves state-of-the-art performance in both natural language generation (NLG) and clinical efficacy (CE) metrics, delivering reports that are not only linguistically coherent but also clinically accurate.
- Abstract(参考訳): 放射線医学レポート生成は、医療AIにおいて重要な応用であり、印象的な成果を上げている。
同時に、大きな言語モデル(LLM)は、様々な領域で顕著な性能を示している。
しかし, 実証的検証の結果, LLMは臨床効果よりも言語流布に注目する傾向があり, X線画像と対応するテキストとの関係を効果的に捉える能力が欠如していることが示唆された。
これらの課題に対処するために,画像特徴とレポートから抽出した疾患ラベルを整合させるため,OTDRG(Optimal Transport-Driven Radiology Report Generation)を提案する。
OTDRGのコアコンポーネントはAlignment \& Fine-Tuning(アライメント・ファイン・チューニング)である。
また,X線画像に含まれる疾患のラベルを検証および検査中に予測する新たな疾患予測モジュールを設計した。
MIMIC-CXR と IU X-Ray のデータセットから評価すると、OTDRG は自然言語生成(NLG)と臨床効果(CE)の両方で最先端のパフォーマンスを達成し、言語的に一貫性があるだけでなく、臨床的に正確であるレポートを提供する。
関連論文リスト
- UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation [31.72930277939111]
画像とテキスト間のクロスモーダルセマンティクスをよりよく捉えるために,大規模な事前学習型視覚言語モデルであるCLIPから表現を転送することを提案する。
効率的な適応を実現するために、CLIPに組み込まれ、ターゲットタスクに微調整される軽量アダプタモジュールであるUniCrossAdapterを導入する。
論文 参考訳(メタデータ) (2025-03-20T08:28:53Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。