論文の概要: Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation
- arxiv url: http://arxiv.org/abs/2508.13068v1
- Date: Mon, 18 Aug 2025 16:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.487506
- Title: Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation
- Title(参考訳): 画像に見る:胸部X線診断のためのマルチモーダル学習とレポート生成
- Authors: Tanjim Islam Riju, Shuchismita Anwar, Saman Sarker Joy, Farig Sadeque, Swakkhar Shatabda,
- Abstract要約: 胸部X線による疾患分類と地域別放射線診断レポートの作成を促進するための2段階フレームワークを提案する。
第一段階では、疾患分類のための視線誘導型コントラスト学習アーキテクチャを導入する。
第2段階では,信頼度重み付き診断キーワードを抽出するモジュールレポート生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.5087814338685968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a two-stage multimodal framework that enhances disease classification and region-aware radiology report generation from chest X-rays, leveraging the MIMIC-Eye dataset. In the first stage, we introduce a gaze-guided contrastive learning architecture for disease classification. It integrates visual features, clinical labels, bounding boxes, and radiologist eye-tracking signals and is equipped with a novel multi-term gaze-attention loss combining MSE, KL divergence, correlation, and center-of-mass alignment. Incorporating fixations improves F1 score from 0.597 to 0.631 (+5.70%) and AUC from 0.821 to 0.849 (+3.41%), while also improving precision and recall, highlighting the effectiveness of gaze-informed attention supervision. In the second stage, we present a modular report generation pipeline that extracts confidence-weighted diagnostic keywords, maps them to anatomical regions using a curated dictionary constructed from domain-specific priors, and generates region-aligned sentences via structured prompts. This pipeline improves report quality as measured by clinical keyword recall and ROUGE overlap. Our results demonstrate that integrating gaze data improves both classification performance and the interpretability of generated medical reports.
- Abstract(参考訳): MIMIC-Eyeデータセットを利用して,胸部X線から疾患分類と地域対応放射線学レポートを生成するための2段階のマルチモーダルフレームワークを提案する。
第一段階では、疾患分類のための視線誘導型コントラスト学習アーキテクチャを導入する。
視覚的特徴、臨床ラベル、バウンディングボックス、および放射線科医の視線追跡信号を統合し、MSE、KLの発散、相関、および中心のアライメントを組み合わせた、新しい長期視線注意損失を備える。
F1のスコアは0.597点から0.631点(+5.70%)、AUC点から0.821点から0.849点(+3.41%)に改善され、精度とリコールも向上し、視線インフォームされた注意監督の有効性を強調している。
第2段階では、信頼度重み付けされた診断キーワードを抽出し、ドメイン固有の先行語から構築したキュレート辞書を用いて解剖学的領域にマップし、構造化されたプロンプトを介して地域対応の文を生成するモジュールレポート生成パイプラインを提案する。
このパイプラインは、臨床キーワードリコールとROUGEオーバーラップによって測定されるレポート品質を向上させる。
その結果, 視線データの統合により, 医療報告の分類性能と解釈性の両方が向上することが示唆された。
関連論文リスト
- PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation [12.860257420677122]
PriorRGは胸部X線レポート生成フレームワークで、2段階のトレーニングパイプラインを通じて実際の臨床をエミュレートする。
ステージ1では,臨床文脈の時間的特徴抽出を利用した事前指導型コントラスト事前訓練方式を導入する。
ステージ2では、視覚エンコーダの隠蔽状態との事前知識を高めるために、事前認識された粗時間デコーディングを統合する。
論文 参考訳(メタデータ) (2025-08-07T13:02:20Z) - Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis [0.0]
本研究では,自動結核検診(TB)を強化するビジョン・ランゲージ・モデル(VLM)を提案する。
胸部X線画像と臨床データを統合することにより,手動による解釈の課題に対処する。
このモデルでは、重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)が示された。
論文 参考訳(メタデータ) (2025-03-17T13:49:29Z) - EVOKE: Elevating Chest X-ray Report Generation via Multi-View Contrastive Learning and Patient-Specific Knowledge [21.596462896333733]
textbfEVOKEは、マルチビューコントラスト学習と患者固有の知識を取り入れた、新しい胸部X線レポート生成フレームワークである。
本稿では,患者固有の指標を統合した知識誘導レポート生成モジュールを提案する。
提案するEVOKEは,複数のデータセットにまたがる最新の最先端手法を超越している。
論文 参考訳(メタデータ) (2024-11-15T14:38:13Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。