論文の概要: Radiology Report Generation with Layer-Wise Anatomical Attention
- arxiv url: http://arxiv.org/abs/2512.16841v1
- Date: Thu, 18 Dec 2025 18:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.198951
- Title: Radiology Report Generation with Layer-Wise Anatomical Attention
- Title(参考訳): レイヤワイズ解剖学的注意による放射線診断報告
- Authors: Emmanuel D. Muñiz-De-León, Jorge A. Rosales-de-Golferichs, Ana S. Muñoz-Rodríguez, Alejandro I. Trejo-Castro, Eduardo de Avila-Armenta, Antonio Martínez-Torteya,
- Abstract要約: 我々は胸部X線レポートのFinderingsセクションを生成するコンパクトな画像からテキストへのアーキテクチャを提案する。
このモデルは凍結した自己蒸留とNo Labels v3 (DINOv3) Vision Transformer (ViT)エンコーダとGenerative Pre-trained Transformer 2 (GPT-2)デコーダを組み合わせたものである。
- 参考スコア(独自算出の注目度): 35.18016233072556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic radiology report generation is a promising application of multimodal deep learning, aiming to reduce reporting workload and improve consistency. However, current state-of-the-art (SOTA) systems - such as Multimodal AI for Radiology Applications (MAIRA-2) and Medical Pathways Language Model-Multimodal (MedPaLM-M) - depend on large-scale multimodal training, clinical metadata, and multiple imaging views, making them resource-intensive and inaccessible for most settings. We introduce a compact image-to-text architecture that generates the Findings section of chest X-ray reports from a single frontal image. The model combines a frozen Self-Distillation with No Labels v3 (DINOv3) Vision Transformer (ViT) encoder with a Generative Pre-trained Transformer 2 (GPT-2) decoder enhanced by layer-wise anatomical attention. This mechanism integrates lung and heart segmentation masks through hierarchical Gaussian smoothing, biasing attention toward clinically relevant regions without adding trainable parameters. Evaluated on the official Medical Information Mart for Intensive Care-Chest X-ray (MIMIC-CXR) dataset using Chest Radiograph Expert (CheXpert) and Radiology Graph (RadGraph) metrics, our approach achieved substantial gains: CheXpert Macro-F1 for five key pathologies increased by 168% (0.083 -> 0.238) and Micro-F1 by 146% (0.137 -> 0.337), while broader performance across 14 observations improved by 86% (0.170 -> 0.316). Structural coherence also improved, with RadGraph F1 rising by 9.7%. Despite its small size and purely image-conditioned design, the model demonstrates that decoder-level anatomical guidance improves spatial grounding and enhances coherence in clinically relevant regions. The source code is publicly available at: https://github.com/devMuniz02/UDEM-CXR-Reporting-Thesis-2025.
- Abstract(参考訳): 自動放射線学レポート生成はマルチモーダル深層学習の有望な応用であり、レポートの負荷低減と一貫性の向上を目的としている。
しかし、現在のSOTA(Multimodal AI for Radiology Applications:MAIRA-2)やMedPaLM-M(MedPaLM-M)のような最先端のシステムでは、大規模なマルチモーダルトレーニング、臨床メタデータ、複数の画像ビューに依存しており、ほとんどの設定ではリソース集約的でアクセスできない。
本稿では,胸部X線画像のファインディング部を生成するコンパクトな画像からテキストへのアーキテクチャを提案する。
このモデルは凍結した自己蒸留とNo Labels v3 (DINOv3) Vision Transformer (ViT)エンコーダと、階層的な解剖学的注意によって強化されたジェネレーティブ・プレトレーニング・トランスフォーマー2 (GPT-2) デコーダを組み合わせたものである。
このメカニズムは、肺と心臓のセグメンテーションマスクを階層的なガウス平滑化を通じて統合し、訓練可能なパラメータを加えることなく臨床的に関連のある領域に注意を向ける。
The official Medical Information Mart for Intensive Care-Chest X-ray (MIMIC-CXR) dataset using Chest Radiograph Expert (CheXpert) and Radiology Graph (RadGraph) metrics, our approach achieved significant gains: CheXpert Macro-F1 for five key pathology increased by 168% (0.083 -> 0.238) and Micro-F1 by 146% (0.137 -> 0.337)。
構造コヒーレンスも改善され、RadGraph F1は9.7%上昇した。
小さいサイズと純粋にイメージコンディショニングされた設計にもかかわらず、このモデルはデコーダレベルの解剖学的ガイダンスが空間的接地を改善し、臨床関連領域におけるコヒーレンスを高めることを示した。
ソースコードはhttps://github.com/devMuniz02/UDEM-CXR-Reporting-2025で公開されている。
関連論文リスト
- CT-GRAPH: Hierarchical Graph Attention Network for Anatomy-Guided CT Report Generation [4.376648893167674]
我々は,放射線学的知識を明示的にモデル化した階層型グラフアテンションネットワークであるCT-GRAPHを提案する。
本手法は, 事前訓練した3次元医用特徴エンコーダを用いて, グローバルな特徴と臓器レベルの特徴を抽出する。
提案手法は,現在の最先端手法よりもF1スコアが絶対7.9%向上したことを示す。
論文 参考訳(メタデータ) (2025-08-07T13:18:03Z) - X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography [89.84588038174721]
Computed Tomographyは臨床において必須のツールであり、内部解剖学的構造を非侵襲的に可視化する。
既存のCT再構成作業は、小さなキャパシティモデルアーキテクチャと非フレキシブルボリューム表現に限られている。
スパースビュー2次元X線プロジェクションから3次元CTボリュームを再構成する大規模なフィードフォワードモデルであるX-GRMを提案する。
論文 参考訳(メタデータ) (2025-05-21T08:14:10Z) - Beyond Conventional Transformers: The Medical X-ray Attention (MXA) Block for Improved Multi-Label Diagnosis Using Knowledge Distillation [0.0]
我々は,X線異常検出の課題に対処するための新しい注意機構である,医療用X線注意ブロック(MXA)を提案する。
提案手法は曲線(AUC)の0.85の領域を達成し,ベースラインモデル(AUC)の0.66に比べて0.19の絶対的な改善を実現した。
論文 参考訳(メタデータ) (2025-04-03T04:55:42Z) - X-LRM: X-ray Large Reconstruction Model for Extremely Sparse-View Computed Tomography Recovery in One Second [52.11676689269379]
スパースビュー3次元CT再構成は, 限られた2次元X線投影から構造を復元することを目的としている。
既存のフィードフォワード手法は、CNNベースのアーキテクチャの限られた能力と大規模なトレーニングデータセットの不足によって制約される。
X線大画像再構成モデル(X-LRM)を提案する。
論文 参考訳(メタデータ) (2025-03-09T01:39:59Z) - Complex Organ Mask Guided Radiology Report Generation [13.96983438709763]
我々は,複合臓器マスクガイド(COMG)レポート生成モデルを提案する。
融合過程において各臓器に対応する疾患の事前知識を活用し,疾患の同定フェーズを増強する。
2つの公開データセットの結果、COMGはSOTAモデルKiUTよりもBLEU@4スコアで11.4%と9.7%改善している。
論文 参考訳(メタデータ) (2023-11-04T05:34:24Z) - Self adaptive global-local feature enhancement for radiology report
generation [10.958641951927817]
グローバル・解剖学的領域の特徴を動的に融合して多粒性放射線学レポートを生成する新しいフレームワーク AGFNet を提案する。
まず,入力胸部X線(CXR)の解剖学的特徴と大域的特徴を抽出する。
そして,領域の特徴とグローバルな特徴を入力として,提案した自己適応型核融合ゲートモジュールは動的に多粒性情報を融合することができる。
最後に、キャプション生成装置は、多粒性特徴により放射線学レポートを生成する。
論文 参考訳(メタデータ) (2022-11-21T11:50:42Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。