論文の概要: Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation
- arxiv url: http://arxiv.org/abs/2509.25963v1
- Date: Tue, 30 Sep 2025 08:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.072893
- Title: Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation
- Title(参考訳): ヴィジュアル・グラウンド医療レポート生成のための自己監督型解剖学的一貫性学習
- Authors: Longzhen Yang, Zhangkai Ni, Ying Wen, Yihang Liu, Lianghua He, Heng Tao Shen,
- Abstract要約: 医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
- 参考スコア(独自算出の注目度): 61.350584471060756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-grounded medical report generation aims to produce clinically accurate descriptions of medical images, anchored in explicit visual evidence to improve interpretability and facilitate integration into clinical workflows. However, existing methods often rely on separately trained detection modules that require extensive expert annotations, introducing high labeling costs and limiting generalizability due to pathology distribution bias across datasets. To address these challenges, we propose Self-Supervised Anatomical Consistency Learning (SS-ACL) -- a novel and annotation-free framework that aligns generated reports with corresponding anatomical regions using simple textual prompts. SS-ACL constructs a hierarchical anatomical graph inspired by the invariant top-down inclusion structure of human anatomy, organizing entities by spatial location. It recursively reconstructs fine-grained anatomical regions to enforce intra-sample spatial alignment, inherently guiding attention maps toward visually relevant areas prompted by text. To further enhance inter-sample semantic alignment for abnormality recognition, SS-ACL introduces a region-level contrastive learning based on anatomical consistency. These aligned embeddings serve as priors for report generation, enabling attention maps to provide interpretable visual evidence. Extensive experiments demonstrate that SS-ACL, without relying on expert annotations, (i) generates accurate and visually grounded reports -- outperforming state-of-the-art methods by 10\% in lexical accuracy and 25\% in clinical efficacy, and (ii) achieves competitive performance on various downstream visual tasks, surpassing current leading visual foundation models by 8\% in zero-shot visual grounding.
- Abstract(参考訳): ヴィジュアル・グラウンドド・メディカル・レポート・ジェネレーション(Vision-grounded Medical Report Generation)は、医用画像の臨床的に正確な記述を作成することを目的としており、解釈性を改善し、臨床ワークフローへの統合を容易にするために明確な視覚的証拠に固定されている。
しかし、既存のメソッドは、広範囲な専門家アノテーションを必要とする個別に訓練された検出モジュールに依存し、データセット間の病理分布バイアスによる高いラベル付けコストと一般化性を制限する。
これらの課題に対処するために、簡単なテキストプロンプトを用いて生成されたレポートを対応する解剖学的領域と整合させる、新規でアノテーションのないフレームワークである、自己監督型解剖学的一貫性学習(SS-ACL)を提案する。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築し、空間的位置によって実体を整理する。
微細な解剖学的領域を再構築してサンプル内の空間的アライメントを強制し、本来はテキストによって引き起こされる視覚的関連領域への注意マップを誘導する。
異常認識のためのサンプル間セマンティックアライメントをさらに強化するため、SS-ACLは解剖学的一貫性に基づいた領域レベルのコントラスト学習を導入する。
これらの整列埋め込みは、レポート生成の先行として機能し、アテンションマップが解釈可能な視覚的証拠を提供することを可能にする。
広範な実験により、SS-ACLは専門家のアノテーションに依存しないことが示された。
i) 正確で視覚的に根ざした報告を生成する -- 最先端の手法を10倍の語彙精度と25倍の臨床的有効性で上回り、そして
(II) 様々な下流視覚課題における競争性能を達成し, ゼロショット視覚接地において, 現時点の目視基盤モデルより8倍の精度で達成した。
関連論文リスト
- Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration [21.260659596426184]
画像と報告の両方から病理観察の一貫性を最大化するために,新しい病理レベルの相互アライメント(PCMA)手法を提案する。
PCMAモジュールは外部の疾患アノテーションとは独立して動作し,本手法の汎用性と堅牢性を高める。
実験により,提案するフレームワークは,複数の下流タスクにおいて,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-12T11:01:57Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [46.99748372216857]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Adversarial Vessel-Unveiling Semi-Supervised Segmentation for Retinopathy of Prematurity Diagnosis [9.683492465191241]
広範囲な手動血管アノテーションを必要とせず,ROP研究を進めるための半教師付きセグメンテーションフレームワークを提案する。
ラベル付きデータにのみ依存する従来の手法とは異なり,本手法では不確実性重み付き容器公開モジュールとドメイン対向学習を統合している。
我々は、パブリックデータセットと社内ROPデータセットに対するアプローチを検証し、複数の評価指標で優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-14T02:40:34Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文 参考訳(メタデータ) (2023-10-11T10:12:43Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。