論文の概要: A Medical Semantic-Assisted Transformer for Radiographic Report
Generation
- arxiv url: http://arxiv.org/abs/2208.10358v1
- Date: Mon, 22 Aug 2022 14:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:41:48.130430
- Title: A Medical Semantic-Assisted Transformer for Radiographic Report
Generation
- Title(参考訳): 医用セマンティック・トランスを用いたラジオグラフィーレポート生成
- Authors: Zhanyu Wang, Mingkang Tang, Lei Wang, Xiu Li, Luping Zhou
- Abstract要約: 入力された微細な画像特徴間の高次相互作用を捉えるために,メモリ拡張されたスパースアテンションブロックを提案する。
また,詳細なセマンティック概念を予測し,レポート生成プロセスに組み込むための新しい医療概念生成ネットワーク(MCGN)についても紹介する。
- 参考スコア(独自算出の注目度): 39.99216295697047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated radiographic report generation is a challenging cross-domain task
that aims to automatically generate accurate and semantic-coherence reports to
describe medical images. Despite the recent progress in this field, there are
still many challenges at least in the following aspects. First, radiographic
images are very similar to each other, and thus it is difficult to capture the
fine-grained visual differences using CNN as the visual feature extractor like
many existing methods. Further, semantic information has been widely applied to
boost the performance of generation tasks (e.g. image captioning), but existing
methods often fail to provide effective medical semantic features. Toward
solving those problems, in this paper, we propose a memory-augmented sparse
attention block utilizing bilinear pooling to capture the higher-order
interactions between the input fine-grained image features while producing
sparse attention. Moreover, we introduce a novel Medical Concepts Generation
Network (MCGN) to predict fine-grained semantic concepts and incorporate them
into the report generation process as guidance. Our proposed method shows
promising performance on the recently released largest benchmark MIMIC-CXR. It
outperforms multiple state-of-the-art methods in image captioning and medical
report generation.
- Abstract(参考訳): 放射線写真の自動レポート生成は、医療画像を記述するための正確なセマンティック・コヒーレンス・レポートを自動的に生成することを目的とした、困難なクロスドメインタスクである。
この分野での最近の進歩にもかかわらず、少なくとも以下の面ではまだ多くの課題がある。
まず、x線画像は互いに非常によく似ており、既存の手法のようにcnnを視覚特徴抽出器として用いると、細かな視差を捉えることは困難である。
さらに、セマンティック情報は、生成タスク(例えば、画像キャプション)の性能を高めるために広く応用されているが、既存の手法では効果的な医用セマンティック機能を提供できないことが多い。
そこで,本稿では,入力された細粒画像特徴間の高次相互作用を捉えるために,バイリニア・プーリングを用いたメモリ提示型スパースアテンションブロックを提案する。
さらに,詳細な意味概念を予測するための新しい医療概念生成ネットワーク(mcgn)を導入し,それらを報告生成プロセスに導入した。
提案手法は,最近発表されたMIMIC-CXRのベンチマークで有望な性能を示す。
画像キャプションや医療報告生成において、最先端の複数の手法よりも優れています。
関連論文リスト
- Medical Report Generation Is A Multi-label Classification Problem [38.64929236412092]
本稿では,医療報告生成を多ラベル分類問題として再考する。
機密鍵ノードと統合されたBLIPに基づく新たなレポート生成フレームワークを提案する。
我々の実験は、キーノードの活用が2つのベンチマークデータセットにまたがる既存のアプローチを越え、最先端(SOTA)のパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2024-08-30T20:43:35Z) - MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks [11.190146577567548]
本稿では、2つの異なるデータセットで利用可能な情報を活用する新しいモデルを提案する。
我々のモデルはMedRATと呼ばれ、従来の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-07-04T13:31:47Z) - MedCycle: Unpaired Medical Report Generation via Cycle-Consistency [11.190146577567548]
一貫性のあるラベリングスキーマを必要としない革新的なアプローチを導入する。
このアプローチは、画像埋め込みをレポート埋め込みに変換するサイクル一貫性マッピング関数に基づいている。
胸部X線所見の発生は、最先端の結果よりも優れており、言語と臨床の両方の指標の改善が示されている。
論文 参考訳(メタデータ) (2024-03-20T09:40:11Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Longer Version for "Deep Context-Encoding Network for Retinal Image
Captioning" [21.558908631487405]
網膜画像の医療報告を自動的に生成する新しいコンテキスト駆動型符号化ネットワークを提案する。
提案するモデルは,主にマルチモーダル入力エンコーダと融合機能デコーダから構成される。
論文 参考訳(メタデータ) (2021-05-30T13:37:03Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。