Fugu-MT 論文翻訳(概要): CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation

論文の概要: CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation

arxiv url: http://arxiv.org/abs/2211.01412v1
Date: Wed, 2 Nov 2022 18:14:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 13:28:45.026170
Title: CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation
Title（参考訳）: camanet: 放射線レポート生成のためのクラスアクティベーションマップ誘導注意ネットワーク
Authors: Jun Wang, Abhir Bhalerao, Terry Yin, Simon See, Yulan He
Abstract要約: ラジオロジーレポート生成(RRG)の最近の進歩は、単一モーダル特徴表現の符号化におけるモデルの能力の向上によって推進されている。画像領域と単語間のクロスモーダルアライメントを明確に検討する研究はほとんどない。本稿では,相互アライメントを明示的に促進するクラス活性化マップガイドアテンションネットワーク(CAMANet)を提案する。
参考スコア（独自算出の注目度）: 29.534459670737967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Radiology report generation (RRG) has gained increasing research attention because of its huge potential to mitigate medical resource shortages and aid the process of disease decision making by radiologists. Recent advancements in Radiology Report Generation (RRG) are largely driven by improving models' capabilities in encoding single-modal feature representations, while few studies explore explicitly the cross-modal alignment between image regions and words. Radiologists typically focus first on abnormal image regions before they compose the corresponding text descriptions, thus cross-modal alignment is of great importance to learn an abnormality-aware RRG model. Motivated by this, we propose a Class Activation Map guided Attention Network (CAMANet) which explicitly promotes cross-modal alignment by employing the aggregated class activation maps to supervise the cross-modal attention learning, and simultaneously enriches the discriminative information. Experimental results demonstrate that CAMANet outperforms previous SOTA methods on two commonly used RRG benchmarks.
Abstract（参考訳）: 放射線医学報告生成(RRG)は、医療資源不足を緩和し、放射線技師による疾患決定のプロセスを支援する大きな可能性から、研究の注目を集めている。近年のrrg(radiology report generation)の進歩は、画像領域と単語のクロスモーダルアライメントを明示的に研究する一方で、単一モーダル特徴表現のエンコーディングにおけるモデルの能力向上に大きく寄与している。放射線学者は典型的には、対応するテキスト記述を構成する前に、まず異常画像領域に焦点をあてるので、異常認識RRGモデルを学ぶ上では、クロスモーダルアライメントが非常に重要である。そこで,本研究では,クラスアクティベーションマップを用いてクロスモーダル注意学習を監督し,同時に識別情報を充実させることにより,クロスモーダルアライメントを促進するクラスアクティベーションマップ誘導注意ネットワーク(camanet)を提案する。実験の結果,CAMANetは2つのRRGベンチマークにおいて,従来のSOTA法よりも優れていた。

関連論文リスト

Cross-Modal Clustering-Guided Negative Sampling for Self-Supervised Joint Learning from Medical Images and Reports [11.734906190235066]
本稿では,2次元のアイデアを用いたCross-Modal Cluster-Guided Negative Smpling (CM-CGNS)法を提案する。まず、シングルモーダルドメインのローカルテキスト機能に使用されるk-meansクラスタリングを、クロスモーダルアテンションを通じてマルチモーダルドメインに拡張する。第2に、マスクされた局所画像領域を再構成するために、クロスモーダルアテンションによって得られたローカルテキストと画像の特徴を利用する、CM-MIR(Cross-Modal Masked Image Reconstruction)モジュールを導入する。
論文参考訳（メタデータ） (2025-06-13T11:08:16Z)
Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration [21.260659596426184]
画像と報告の両方から病理観察の一貫性を最大化するために,新しい病理レベルの相互アライメント(PCMA)手法を提案する。 PCMAモジュールは外部の疾患アノテーションとは独立して動作し,本手法の汎用性と堅牢性を高める。実験により,提案するフレームワークは,複数の下流タスクにおいて,新しい最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-12T11:01:57Z)
Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。 DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文参考訳（メタデータ） (2025-05-21T05:16:45Z)
See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning [12.40415847810958]
本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。
論文参考訳（メタデータ） (2024-09-29T12:08:20Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIPP) は、大規模な事前訓練を通じてゼロショット分類を可能にするソリューションを提供する。ビジュアルマーカーはAUROC2013$を0.185まで改善し、分類性能を向上させる効果を強調した。我々はコードと前処理パイプラインを公開し、医用画像の局所分類に関する今後の研究の基準点を提供する。
論文参考訳（メタデータ） (2024-08-28T13:53:27Z)
Attention-Map Augmentation for Hypercomplex Breast Cancer Classification [6.098816895102301]
本稿では,乳がん分類の問題点を克服する枠組みとして,パラメータ化ハイパーコンプレックス・アテンション・マップ(PHAM)を提案する。フレームワークには2つの大きな利点がある。まず注意マップがROIに関する重要な情報を提供し、ニューラルネットワークがそれに集中できるようにする。私たちは、注目に基づく最先端のネットワークと、我々のアプローチの真の価値を超越しています。
論文参考訳（メタデータ） (2023-10-11T16:28:24Z)
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文参考訳（メタデータ） (2023-03-28T12:42:12Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文参考訳（メタデータ） (2022-10-12T09:31:39Z)
Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文参考訳（メタデータ） (2022-04-28T02:32:53Z)
Cross-Modal Contrastive Learning for Abnormality Classification and Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文参考訳（メタデータ） (2021-04-11T09:16:29Z)
Attention Model Enhanced Network for Classification of Breast Cancer Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。 3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文参考訳（メタデータ） (2020-10-07T08:44:21Z)
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。 ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文参考訳（メタデータ） (2020-06-06T01:00:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。