論文の概要: Anatomical Attention Alignment representation for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2505.07689v1
- Date: Mon, 12 May 2025 15:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.468415
- Title: Anatomical Attention Alignment representation for Radiology Report Generation
- Title(参考訳): 放射線診断レポート作成のための解剖的注意アライメント表現
- Authors: Quang Vinh Nguyen, Minh Duc Nguyen, Thanh Hoang Son Vo, Hyung-Jeong Yang, Soo-Hyung Kim,
- Abstract要約: Anatomical Attention Alignment Network (A3Net)は、超視覚的表現を構築することで視覚的テキスト理解を強化するフレームワークである。
本手法では,解剖学的構造とパッチレベルの視覚的特徴の知識辞書を統合し,画像領域を対応する解剖学的実体と効果的に関連付けることができる。
IU X-RayとMIMIC-CXRデータセットの実験結果から、A3Netは視覚知覚とテキスト生成品質の両方を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 10.887845017050477
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated Radiology report generation (RRG) aims at producing detailed descriptions of medical images, reducing radiologists' workload and improving access to high-quality diagnostic services. Existing encoder-decoder models only rely on visual features extracted from raw input images, which can limit the understanding of spatial structures and semantic relationships, often resulting in suboptimal text generation. To address this, we propose Anatomical Attention Alignment Network (A3Net), a framework that enhance visual-textual understanding by constructing hyper-visual representations. Our approach integrates a knowledge dictionary of anatomical structures with patch-level visual features, enabling the model to effectively associate image regions with their corresponding anatomical entities. This structured representation improves semantic reasoning, interpretability, and cross-modal alignment, ultimately enhancing the accuracy and clinical relevance of generated reports. Experimental results on IU X-Ray and MIMIC-CXR datasets demonstrate that A3Net significantly improves both visual perception and text generation quality. Our code is available at \href{https://github.com/Vinh-AI/A3Net}{GitHub}.
- Abstract(参考訳): 自動放射線診断レポート生成(RRG)は、医療画像の詳細な記述を作成し、放射線医の作業量を削減し、高品質な診断サービスへのアクセスを改善することを目的としている。
既存のエンコーダ・デコーダモデルは、生の入力画像から抽出された視覚的特徴のみに依存しており、空間構造や意味的関係の理解を制限し、しばしば最適なテキスト生成をもたらす。
これを解決するために,超視覚的表現を構築することで視覚的テキスト理解を高めるフレームワークである解剖学的注意アライメントネットワーク(A3Net)を提案する。
本手法では,解剖学的構造とパッチレベルの視覚的特徴の知識辞書を統合し,画像領域を対応する解剖学的実体と効果的に関連付けることができる。
この構造化された表現は、意味的推論、解釈可能性、および横断的アライメントを改善し、最終的に生成されたレポートの正確性と臨床的関連性を高める。
IU X-RayとMIMIC-CXRデータセットの実験結果から、A3Netは視覚知覚とテキスト生成品質の両方を著しく改善することが示された。
私たちのコードは \href{https://github.com/Vinh-AI/A3Net}{GitHub} で利用可能です。
関連論文リスト
- Learning Generalized Medical Image Representations through Image-Graph Contrastive Pretraining [11.520404630575749]
胸部X線と構造化レポート知識グラフを組み合わせた画像グラフコントラスト学習フレームワークを開発した。
提案手法は,リレーショナルグラフ畳み込みネットワークとトランスフォーマーアテンションを介して,非連結グラフ成分を一意に符号化する。
論文 参考訳(メタデータ) (2024-05-15T12:27:38Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Finding-Aware Anatomical Tokens for Chest X-Ray Automated Reporting [13.151444796296868]
本稿では,解剖学的構造定位時に抽出した候補境界ボックスの検出を行う,Faster R-CNNの新たな適応法を提案する。
得られたバウンディングボックスの特徴表現を解剖学的トークンの発見セットとして使用します。
タスク対応の解剖学的トークンは、自動レポートパイプラインに統合された場合、最先端のパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。