論文の概要: Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports
- arxiv url: http://arxiv.org/abs/2505.16624v1
- Date: Thu, 22 May 2025 12:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.298645
- Title: Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports
- Title(参考訳): 胸部X線検査による胸部X線検査
- Authors: Francesco Dalla Serra, Patrick Schrempf, Chaoyang Wang, Zaiqiao Meng, Fani Deligianni, Alison Q. O'Neil,
- Abstract要約: 胸部X線(CXR)視覚質問応答(VQA)に対する新しいアプローチを提案する。
単一イメージの質問は特定のCXR内の異常に焦点を当て、画像差の質問は異なるタイミングで取得した2つの縦CXRを比較する。
我々は、VQAモデルの予測回答を改善するために、レポートを追加入力として活用できることを示すことで、このアイデアを拡張した。
- 参考スコア(独自算出の注目度): 19.320173724978815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel approach to Chest X-ray (CXR) Visual Question Answering (VQA), addressing both single-image image-difference questions. Single-image questions focus on abnormalities within a specific CXR ("What abnormalities are seen in image X?"), while image-difference questions compare two longitudinal CXRs acquired at different time points ("What are the differences between image X and Y?"). We further explore how the integration of radiology reports can enhance the performance of VQA models. While previous approaches have demonstrated the utility of radiology reports during the pre-training phase, we extend this idea by showing that the reports can also be leveraged as additional input to improve the VQA model's predicted answers. First, we propose a unified method that handles both types of questions and auto-regressively generates the answers. For single-image questions, the model is provided with a single CXR. For image-difference questions, the model is provided with two CXRs from the same patient, captured at different time points, enabling the model to detect and describe temporal changes. Taking inspiration from 'Chain-of-Thought reasoning', we demonstrate that performance on the CXR VQA task can be improved by grounding the answer generator module with a radiology report predicted for the same CXR. In our approach, the VQA model is divided into two steps: i) Report Generation (RG) and ii) Answer Generation (AG). Our results demonstrate that incorporating predicted radiology reports as evidence to the AG model enhances performance on both single-image and image-difference questions, achieving state-of-the-art results on the Medical-Diff-VQA dataset.
- Abstract(参考訳): 本稿では,Chest X-ray (CXR) Visual Question Answering (VQA) に対する新しいアプローチを提案する。
単画像の質問は、特定のCXR内の異常(画像 X?)に焦点を当て、画像差の質問は異なる時間ポイントで取得した2つの縦CXRを比較する(画像 X と Y?
さらに,VQAモデルの性能向上を図るために,放射線学レポートの統合について検討する。
先行訓練期間中に放射線学レポートの有用性を実証する以前の手法では,VQAモデルの予測回答を改善するために,追加入力としてレポートを活用できることを示し,この考え方を拡張した。
まず,両タイプの質問を処理し,回答を自動回帰的に生成する統一手法を提案する。
シングルイメージの質問に対して、モデルは単一のCXRを備える。
画像差分問題に対して、モデルは同一患者の2つのCXRを備え、異なる時刻でキャプチャされ、時間的変化を検出して記述することができる。
そこで我々は,「Chain-of-Thought reasoning」からインスピレーションを得て,CXR VQAタスクの応答生成モジュールを同じCXRに対して予測したラジオロジーレポートでグラウンド化することにより,CXR VQAタスクの性能を向上させることができることを示した。
我々のアプローチでは、VQAモデルは2つのステップに分けられる。
一 報告生成(RG)及び
二 回答生成(AG)
以上の結果から,AGモデルに対する証拠として,予測ラジオロジーレポートを組み込むことで,単画像および画像差分問題の性能が向上し,メディカルディフ-VQAデータセットの最先端結果が達成できることが示唆された。
関連論文リスト
- Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays [6.351190845487287]
差分視覚質問応答(diff-VQA)は、画像間の差分に基づいて複雑な質問に答えることを必要とする課題である。
以前はdiff-VQAタスクのための特定のネットワークアーキテクチャの設計に重点が置かれていたが、モデルの性能を高める機会がなかった。
本稿では,diff-VQAタスクのための自然および縦部胸部X線データに基づいて,PLURALと呼ばれる新しいVLMを提案する。
論文 参考訳(メタデータ) (2024-02-14T06:20:48Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z) - DeltaNet:Conditional Medical Report Generation for COVID-19 Diagnosis [54.93879264615525]
医療報告を自動生成するDeltaNetを提案する。
DeltaNetはレポートを生成するために3つのステップを採用している。
DeltaNetは最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-11-12T07:41:03Z) - Contrastive Attention for Automatic Chest X-ray Report Generation [124.60087367316531]
ほとんどの場合、正常領域が胸部X線像全体を支配し、これらの正常領域の対応する記述が最終報告を支配している。
本稿では,現在の入力画像と通常の画像を比較してコントラスト情報を抽出するContrastive Attention(CA)モデルを提案する。
2つの公開データセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-13T11:20:31Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Convolutional-LSTM for Multi-Image to Single Output Medical Prediction [55.41644538483948]
発展途上国の一般的なシナリオは、複数の理由からボリュームメタデータが失われることである。
ヒトの診断過程を模倣したマルチイメージから単一診断モデルを得ることが可能である。
論文 参考訳(メタデータ) (2020-10-20T04:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。