論文の概要: CAMANet: Class Activation Map Guided Attention Network for Radiology
Report Generation
- arxiv url: http://arxiv.org/abs/2211.01412v2
- Date: Sun, 3 Mar 2024 10:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 04:20:06.460032
- Title: CAMANet: Class Activation Map Guided Attention Network for Radiology
Report Generation
- Title(参考訳): camanet: 放射線レポート生成のためのクラスアクティベーションマップ誘導注意ネットワーク
- Authors: Jun Wang, Abhir Bhalerao, Terry Yin, Simon See, Yulan He
- Abstract要約: 放射線医学報告生成(RRG)は、医療資源不足を緩和する大きな可能性を秘めているため、研究の注目を集めている。
RRGの最近の進歩は、単一モーダルな特徴表現を符号化する際のモデルの能力の向上によって引き起こされる。
画像領域と単語間のクロスモーダルアライメントを明示的に検討する研究はほとんどない。
クロスモーダルアライメントを明示的に促進するクラス活性化マップガイドアテンションネットワーク(CAMANet)を提案する。
- 参考スコア(独自算出の注目度): 24.072847985361925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation (RRG) has gained increasing research attention
because of its huge potential to mitigate medical resource shortages and aid
the process of disease decision making by radiologists. Recent advancements in
RRG are largely driven by improving a model's capabilities in encoding
single-modal feature representations, while few studies explicitly explore the
cross-modal alignment between image regions and words. Radiologists typically
focus first on abnormal image regions before composing the corresponding text
descriptions, thus cross-modal alignment is of great importance to learn a RRG
model which is aware of abnormalities in the image. Motivated by this, we
propose a Class Activation Map guided Attention Network (CAMANet) which
explicitly promotes crossmodal alignment by employing aggregated class
activation maps to supervise cross-modal attention learning, and simultaneously
enrich the discriminative information. CAMANet contains three complementary
modules: a Visual Discriminative Map Generation module to generate the
importance/contribution of each visual token; Visual Discriminative Map
Assisted Encoder to learn the discriminative representation and enrich the
discriminative information; and a Visual Textual Attention Consistency module
to ensure the attention consistency between the visual and textual tokens, to
achieve the cross-modal alignment. Experimental results demonstrate that
CAMANet outperforms previous SOTA methods on two commonly used RRG benchmarks.
- Abstract(参考訳): 放射線医学報告生成(RRG)は、医療資源不足を緩和し、放射線技師による疾患決定のプロセスを支援する大きな可能性から、研究の注目を集めている。
近年のrrgの進歩は、画像領域と単語間のクロスモーダルアライメントを明示的に検討する研究は少ないが、単一モーダル特徴表現のエンコーディングにおけるモデルの能力向上に大きく寄与している。
放射線学者は通常、対応するテキスト記述を構成する前に画像領域の異常に焦点を合わせ、画像の異常を認識するRRGモデルを学ぶことが非常に重要である。
そこで本研究では,クラスアクティベーションマップを用いてクロスモーダル注意学習を監督し,同時に識別情報を充実させることにより,クロスモーダルアライメントを明示的に促進するクラスアクティベーションマップ誘導注意ネットワーク(camanet)を提案する。
camanetには3つの補完的なモジュールが含まれている: 各視覚的トークンの重要/帰属を生成する視覚的識別マップ生成モジュール、識別表現を学習し識別情報を豊かにするための視覚的識別マップ支援エンコーダ、視覚とテキスト間の注意一貫性を確保するビジュアルテクスト的注意一貫性モジュール、および、クロスモーダルアライメントを実現する。
実験の結果,CAMANetは2つのRRGベンチマークにおいて,従来のSOTA法よりも優れていた。
関連論文リスト
- See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning [12.40415847810958]
本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。
具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。
テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。
論文 参考訳(メタデータ) (2024-09-29T12:08:20Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Attention-Map Augmentation for Hypercomplex Breast Cancer Classification [6.098816895102301]
本稿では,乳がん分類の問題点を克服する枠組みとして,パラメータ化ハイパーコンプレックス・アテンション・マップ(PHAM)を提案する。
フレームワークには2つの大きな利点がある。まず注意マップがROIに関する重要な情報を提供し、ニューラルネットワークがそれに集中できるようにする。
私たちは、注目に基づく最先端のネットワークと、我々のアプローチの真の価値を超越しています。
論文 参考訳(メタデータ) (2023-10-11T16:28:24Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。