論文の概要: A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation
- arxiv url: http://arxiv.org/abs/2511.12259v1
- Date: Sat, 15 Nov 2025 15:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.780676
- Title: A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation
- Title(参考訳): 胸部X線診断のための疾患対応デュアルステージフレームワーク
- Authors: Puzhen Wu, Hexin Dong, Yi Lin, Yihao Ding, Yifan Peng,
- Abstract要約: 胸部X線レポート生成のための新しい2段階疾患認識フレームワークを提案する。
ステージ1では,特定の病理カテゴリに対応する病的意味トークン(DAST)を学習する。
ステージ2では,病を意識した表現と視覚的特徴を統合するために,病的・視覚的注意融合モジュールを導入する。
- 参考スコア(独自算出の注目度): 15.331803613974365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation from chest X-rays is an important task in artificial intelligence with the potential to greatly reduce radiologists' workload and shorten patient wait times. Despite recent advances, existing approaches often lack sufficient disease-awareness in visual representations and adequate vision-language alignment to meet the specialized requirements of medical image analysis. As a result, these models usually overlook critical pathological features on chest X-rays and struggle to generate clinically accurate reports. To address these limitations, we propose a novel dual-stage disease-aware framework for chest X-ray report generation. In Stage~1, our model learns Disease-Aware Semantic Tokens (DASTs) corresponding to specific pathology categories through cross-attention mechanisms and multi-label classification, while simultaneously aligning vision and language representations via contrastive learning. In Stage~2, we introduce a Disease-Visual Attention Fusion (DVAF) module to integrate disease-aware representations with visual features, along with a Dual-Modal Similarity Retrieval (DMSR) mechanism that combines visual and disease-specific similarities to retrieve relevant exemplars, providing contextual guidance during report generation. Extensive experiments on benchmark datasets (i.e., CheXpert Plus, IU X-ray, and MIMIC-CXR) demonstrate that our disease-aware framework achieves state-of-the-art performance in chest X-ray report generation, with significant improvements in clinical accuracy and linguistic quality.
- Abstract(参考訳): 胸部X線から発生する放射線学報告は、放射線科医の作業負荷を大幅に削減し、患者待ち時間を短縮する可能性を持つ人工知能において重要な課題である。
近年の進歩にもかかわらず、既存のアプローチでは、医用画像解析の特別な要件を満たすために、視覚表現や視覚言語アライメントに十分な疾患認識が欠如していることが多い。
結果として、これらのモデルは通常、胸部X線上の重要な病理学的特徴を見落とし、臨床的に正確な報告を作成するのに苦労する。
これらの制約に対処するため,胸部X線レポート生成のための新しい2段階疾患認識フレームワークを提案する。
ステージ~1では,コントラスト学習を通じて視覚と言語表現を同時に協調しながら,横断的認識機構と多ラベル分類により,特定の病理カテゴリに対応する病的意味トークン(DAST)を学習する。
第2段~第2段~第2段では,疾患認識表現と視覚特徴を融合するDVAFモジュールと,視覚的および疾患固有の類似性を組み合わせたDMSR機構を導入し,報告生成時の文脈的ガイダンスを提供する。
ベンチマークデータセット(例えば、CheXpert Plus、IU X-ray、MIMIC-CXR)の大規模な実験により、我々の疾患認識フレームワークは、胸部X線レポート生成における最先端のパフォーマンスを達成し、臨床的精度と言語学的品質を著しく改善することを示した。
関連論文リスト
- An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation [1.5087814338685968]
胸部X線による疾患分類と地域別放射線診断レポートの作成を促進するための2段階フレームワークを提案する。
第一段階では、疾患分類のための視線誘導型コントラスト学習アーキテクチャを導入する。
第2段階では,信頼度重み付き診断キーワードを抽出するモジュールレポート生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-18T16:42:29Z) - X-Ray-CoT: Interpretable Chest X-ray Diagnosis with Vision-Language Models via Chain-of-Thought Reasoning [0.0]
胸部X線診断のための新しいフレームワークであるX線CoT(Chest X-ray Chain-of-Thought)を提案する。
X線-CoTは、まずマルチモーダル特徴と視覚概念を抽出することにより、ヒトの放射線学者の「チェーン・オブ・思想」をシミュレートする。
80.52%、F1スコア78.65%のバランスド精度で、競争力のある定量的パフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-17T18:00:41Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。