論文の概要: RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment
- arxiv url: http://arxiv.org/abs/2501.07525v1
- Date: Mon, 13 Jan 2025 17:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:28.130318
- Title: RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment
- Title(参考訳): RadAlign:Vision-Language コンセプトアライメントによる放射線学レポート生成の促進
- Authors: Difei Gu, Yunhe Gao, Yang Zhou, Mu Zhou, Dimitris Metaxas,
- Abstract要約: RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
- 参考スコア(独自算出の注目度): 10.67889367763112
- License:
- Abstract: Automated chest radiographs interpretation requires both accurate disease classification and detailed radiology report generation, presenting a significant challenge in the clinical workflow. Current approaches either focus on classification accuracy at the expense of interpretability or generate detailed but potentially unreliable reports through image captioning techniques. In this study, we present RadAlign, a novel framework that combines the predictive accuracy of vision-language models (VLMs) with the reasoning capabilities of large language models (LLMs). Inspired by the radiologist's workflow, RadAlign first employs a specialized VLM to align visual features with key medical concepts, achieving superior disease classification with an average AUC of 0.885 across multiple diseases. These recognized medical conditions, represented as text-based concepts in the aligned visual-language space, are then used to prompt LLM-based report generation. Enhanced by a retrieval-augmented generation mechanism that grounds outputs in similar historical cases, RadAlign delivers superior report quality with a GREEN score of 0.678, outperforming state-of-the-art methods' 0.634. Our framework maintains strong clinical interpretability while reducing hallucinations, advancing automated medical imaging and report analysis through integrated predictive and generative AI. Code is available at https://github.com/difeigu/RadAlign.
- Abstract(参考訳): 胸部X線写真の自動解釈は、正確な疾患分類と詳細な放射線診断レポートの生成の両方を必要とし、臨床ワークフローにおいて重要な課題を提示する。
現在のアプローチでは、解釈容易性を犠牲にして分類精度に焦点を当てるか、イメージキャプション技術を通じて詳細だが信頼性の低いレポートを生成する。
本研究では,視覚言語モデル(VLM)の予測精度と大規模言語モデル(LLM)の推論能力を組み合わせた新しいフレームワークであるRadAlignを提案する。
放射線科医のワークフローにインスパイアされたRadAlignは、視覚的特徴と重要な医学的概念を合わせるために、まず専門的なVLMを採用し、複数の疾患に対して平均0.885のAUCで優れた疾患分類を実現した。
これらの認識された医療条件は、一致した視覚言語空間におけるテキストベースの概念として表現され、LSMベースのレポート生成を促すために使用される。
RadAlignは、同様の歴史的ケースで出力を基盤とする検索強化生成機構によって強化され、GREENスコア0.678で優れたレポート品質を提供し、最先端のメソッド0.634を上回っている。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
コードはhttps://github.com/difeigu/RadAlign.comで入手できる。
関連論文リスト
- Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。
本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T05:08:18Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - A Self-Guided Framework for Radiology Report Generation [10.573538773141715]
SGF(Self-Guided framework)は、注釈付き疾患ラベルによる医療報告を生成するために開発されたフレームワークである。
SGFは、人間の学習と執筆の過程を模倣するために、教師なしおよび教師なしのディープラーニング手法を使用している。
提案手法は,単語間の細粒度視覚的詳細を識別するためのフレームワークの能力を強調した。
論文 参考訳(メタデータ) (2022-06-19T11:09:27Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation [3.3978173451092437]
放射線画像から記述テキストを自動的に生成することを目的とした放射線学レポート生成。
典型的な設定は、エンコーダとデコーダのモデルを、クロスエントロピー損失のあるイメージレポートペアでトレーニングする。
本稿では,医療報告生成におけるコントラスト損失の弱化について提案する。
論文 参考訳(メタデータ) (2021-09-25T00:06:23Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。