論文の概要: Intensive Vision-guided Network for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2402.03754v1
- Date: Tue, 6 Feb 2024 06:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:06:16.571032
- Title: Intensive Vision-guided Network for Radiology Report Generation
- Title(参考訳): 放射能レポート生成のための集中型視覚誘導ネットワーク
- Authors: Fudan Zheng, Mengfei Li, Ying Wang, Weijiang Yu, Ruixuan Wang,
Zhiguang Chen, Nong Xiao, and Yutong Lu
- Abstract要約: 医用画像エンコーダにおける多視点視覚知覚をシミュレートし統合するためのGIAモジュールを提案する。
また,複数モーダル信号を用いて正確な一致したレポートを生成する方法,すなわち,予測済みの単語を領域認識型視覚コンテンツと統合して次の単語予測を行う方法について検討する。
- 参考スコア(独自算出の注目度): 22.030289124516326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic radiology report generation is booming due to its huge application
potential for the healthcare industry. However, existing computer vision and
natural language processing approaches to tackle this problem are limited in
two aspects. First, when extracting image features, most of them neglect
multi-view reasoning in vision and model single-view structure of medical
images, such as space-view or channel-view. However, clinicians rely on
multi-view imaging information for comprehensive judgment in daily clinical
diagnosis. Second, when generating reports, they overlook context reasoning
with multi-modal information and focus on pure textual optimization utilizing
retrieval-based methods. We aim to address these two issues by proposing a
model that better simulates clinicians' perspectives and generates more
accurate reports. Given the above limitation in feature extraction, we propose
a Globally-intensive Attention (GIA) module in the medical image encoder to
simulate and integrate multi-view vision perception. GIA aims to learn three
types of vision perception: depth view, space view, and pixel view. On the
other hand, to address the above problem in report generation, we explore how
to involve multi-modal signals to generate precisely matched reports, i.e., how
to integrate previously predicted words with region-aware visual content in
next word prediction. Specifically, we design a Visual Knowledge-guided Decoder
(VKGD), which can adaptively consider how much the model needs to rely on
visual information and previously predicted text to assist next word
prediction. Hence, our final Intensive Vision-guided Network (IVGN) framework
includes a GIA-guided Visual Encoder and the VKGD. Experiments on two
commonly-used datasets IU X-Ray and MIMIC-CXR demonstrate the superior ability
of our method compared with other state-of-the-art approaches.
- Abstract(参考訳): 医療業界への大きな応用可能性のために、自動x線検査レポート生成が急成長している。
しかし、この問題に対処するための既存のコンピュータビジョンと自然言語処理アプローチは2つの側面に限られている。
まず、画像特徴を抽出する際、視覚における多視点推論を無視し、スペースビューやチャンネルビューといった医療画像の単一視点構造をモデル化する。
しかし、臨床医は日常診断において総合的な判断を多視点画像情報に頼っている。
第二に、レポートを生成する際には、マルチモーダル情報による文脈推論を見落とし、検索手法を利用した純粋テキスト最適化に焦点を当てる。
本研究の目的は,臨床医の視点をシミュレートし,より正確な報告を生成するモデルを提案することである。
上記の特徴抽出の限界を考慮し,多視点視覚知覚をシミュレートし統合するための医用画像エンコーダにおけるグローバル集中注意(gia)モジュールを提案する。
GIAは、深度ビュー、空間ビュー、ピクセルビューの3種類の視覚知覚を学習することを目指している。
一方,報告生成における上記の問題に対処するために,複数のモーダル信号を用いて正確な一致レポートを生成する方法,すなわち,予め予測された単語と地域認識された視覚コンテンツの統合方法について検討する。
具体的には、視覚的知識誘導デコーダ(VKGD)を設計し、次の単語予測を支援するために、モデルが視覚情報や予測されたテキストにどれだけ依存する必要があるかを適応的に検討する。
したがって、我々の最後の集中型ビジョン誘導ネットワーク(IVGN)フレームワークは、GIA誘導型ビジュアルエンコーダとVKGDを含んでいる。
IU X-RayとMIMIC-CXRの2つの一般的なデータセットを用いた実験は、他の最先端手法と比較して、我々の手法が優れていることを示す。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - DeViDe: Faceted medical knowledge for improved medical vision-language pre-training [1.6567372257085946]
胸部X線に対する視覚言語による事前訓練は、主にペアのX線写真とラジオグラフィーレポートを活用することで大きな進歩を遂げた。
オープンウェブからの無線画像記述を利用するトランスフォーマーベースのDeViDeを提案する。
DeViDeは知識強化された視覚言語アライメントの3つの重要な特徴を取り入れている。
ゼロショット設定では、DeViDeは外部データセットの完全な教師付きモデルと互換性があり、3つの大規模データセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-04-04T17:40:06Z) - RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。