論文の概要: S2D-ALIGN: Shallow-to-Deep Auxiliary Learning for Anatomically-Grounded Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2511.11066v1
- Date: Fri, 14 Nov 2025 08:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.501892
- Title: S2D-ALIGN: Shallow-to-Deep Auxiliary Learning for Anatomically-Grounded Radiology Report Generation
- Title(参考訳): S2D-ALIGN : 解剖学的局所放射線学レポート作成のための浅層から深層への補助学習
- Authors: Jiechao Gao, Chang Liu, Yuangang Li,
- Abstract要約: 既存手法はマルチモーダル大言語モデル(MLLM)の強力なクロスモーダル生成機能を活用している
我々は,様々な粒度の補助信号を活用することで,解剖学的アライメントを確立する新しいSFTパラダイムであるtextscS2D-Alignを提案する。
評価のために、textscMIC-CXR と textscIU X-Ray ベンチマークを用いて、textscS2D-Align が最先端の性能を達成する実験を行った。
- 参考スコア(独自算出の注目度): 8.720883068109774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology Report Generation (RRG) aims to automatically generate diagnostic reports from radiology images. To achieve this, existing methods have leveraged the powerful cross-modal generation capabilities of Multimodal Large Language Models (MLLMs), primarily focusing on optimizing cross-modal alignment between radiographs and reports through Supervised Fine-Tuning (SFT). However, by only performing instance-level alignment with the image-text pairs, the standard SFT paradigm fails to establish anatomically-grounded alignment, where the templated nature of reports often leads to sub-optimal generation quality. To address this, we propose \textsc{S2D-Align}, a novel SFT paradigm that establishes anatomically-grounded alignment by leveraging auxiliary signals of varying granularities. \textsc{S2D-Align} implements a shallow-to-deep strategy, progressively enriching the alignment process: it begins with the coarse radiograph-report pairing, then introduces reference reports for instance-level guidance, and ultimately utilizes key phrases to ground the generation in specific anatomical details. To bridge the different alignment stages, we introduce a memory-based adapter that empowers feature sharing, thereby integrating coarse and fine-grained guidance. For evaluation, we conduct experiments on the public \textsc{MIMIC-CXR} and \textsc{IU X-Ray} benchmarks, where \textsc{S2D-Align} achieves state-of-the-art performance compared to existing methods. Ablation studies validate the effectiveness of our multi-stage, auxiliary-guided approach, highlighting a promising direction for enhancing grounding capabilities in complex, multi-modal generation tasks.
- Abstract(参考訳): Radiology Report Generation (RRG) は、放射線画像から診断レポートを自動的に生成することを目的としている。
これを実現するために,既存の手法はマルチモーダル大言語モデル(MLLM)の強力なクロスモーダル生成機能を活用し,主にラジオグラフィーとSFT(Supervised Fine-Tuning)によるレポート間の相互モーダルアライメントの最適化に重点を置いている。
しかし、画像テキストのペアとインスタンスレベルのアライメントのみを実行することで、標準的なSFTパラダイムは解剖学的に基底的なアライメントの確立に失敗する。
そこで本稿では, 様々な粒度の補助信号を活用することによって, 解剖学的アライメントを確立する新しいSFTパラダイムであるtextsc{S2D-Align}を提案する。
粗いラジオグラフとレポートのペアリングから始まり、インスタンスレベルのガイダンスの参照レポートを導入し、最終的に重要なフレーズを使用して、特定の解剖学的詳細で生成を基盤とする。
異なるアライメントステージをブリッジするために,メモリベースのアダプタを導入し,機能共有を強化し,粗いガイダンスときめ細かいガイダンスを統合する。
評価のために,公開の \textsc{MIMIC-CXR} と \textsc{IU X-Ray} ベンチマークを用いて実験を行った。
アブレーション研究は,多段階補助誘導方式の有効性を検証し,複雑なマルチモーダル生成タスクにおける接地能力向上に向けた有望な方向性を明らかにする。
関連論文リスト
- Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。