論文の概要: On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation
- arxiv url: http://arxiv.org/abs/2211.13465v1
- Date: Thu, 24 Nov 2022 08:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:47:59.803516
- Title: On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation
- Title(参考訳): 胸部X線自動生成における画像符号化の重要性について
- Authors: Otabek Nazarov, Mohammad Yaqub, Karthik Nandakumar
- Abstract要約: 胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
- 参考スコア(独自算出の注目度): 4.843654097048771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chest X-ray is one of the most popular medical imaging modalities due to its
accessibility and effectiveness. However, there is a chronic shortage of
well-trained radiologists who can interpret these images and diagnose the
patient's condition. Therefore, automated radiology report generation can be a
very helpful tool in clinical practice. A typical report generation workflow
consists of two main steps: (i) encoding the image into a latent space and (ii)
generating the text of the report based on the latent image embedding. Many
existing report generation techniques use a standard convolutional neural
network (CNN) architecture for image encoding followed by a Transformer-based
decoder for medical text generation. In most cases, CNN and the decoder are
trained jointly in an end-to-end fashion. In this work, we primarily focus on
understanding the relative importance of encoder and decoder components.
Towards this end, we analyze four different image encoding approaches: direct,
fine-grained, CLIP-based, and Cluster-CLIP-based encodings in conjunction with
three different decoders on the large-scale MIMIC-CXR dataset. Among these
encoders, the cluster CLIP visual encoder is a novel approach that aims to
generate more discriminative and explainable representations. CLIP-based
encoders produce comparable results to traditional CNN-based encoders in terms
of NLP metrics, while fine-grained encoding outperforms all other encoders both
in terms of NLP and clinical accuracy metrics, thereby validating the
importance of image encoder to effectively extract semantic information. GitHub
repository: https://github.com/mudabek/encoding-cxr-report-gen
- Abstract(参考訳): 胸部x線はそのアクセシビリティと有効性のために最も人気のある医用画像の1つである。
しかし、これらの画像の解釈と患者の状態の診断ができる訓練を受けた放射線科医が慢性的に不足している。
したがって, 自動放射線診断レポート生成は臨床実践において非常に有用なツールである。
典型的なレポート生成ワークフローは、2つの主要なステップで構成される。
(i)その画像を潜在空間に符号化すること、及び
(ii)潜入画像埋め込みに基づいてレポートのテキストを生成する。
既存のレポート生成技術の多くは、画像エンコーディングに標準畳み込みニューラルネットワーク(cnn)アーキテクチャ、医療テキスト生成にトランスフォーマーベースのデコーダを使用している。
ほとんどの場合、CNNとデコーダはエンドツーエンドで共同で訓練される。
本研究は主にエンコーダとデコーダコンポーネントの相対的重要性の理解に重点を置いている。
そこで本研究では,3つの異なるデコーダを併用して,直接,細粒度,クリップベース,クラスタクリップベースの4種類の符号化手法を解析した。
これらのエンコーダのうち、クラスタクリップビジュアルエンコーダは、より識別可能で説明可能な表現を生成することを目的とした新しいアプローチである。
CLIPベースのエンコーダは、NLPメトリクスの点で従来のCNNベースのエンコーダに匹敵する結果を生成する一方、詳細なエンコーダは、NLPと臨床精度の両方で他のエンコーダよりも優れており、セマンティック情報を効果的に抽出するための画像エンコーダの重要性を検証する。
githubリポジトリ: https://github.com/mudabek/encoding-cxr-report-gen
関連論文リスト
- BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D
Medical Image Segmentation [8.550528610846456]
我々は、新しいグラフ畳み込みに基づくデコーダ、すなわちカスケードグラフ畳み込みアテンションデコーダ(G-CASCADE)を提案する。
G-CASCADEは、効率的なグラフ畳み込みブロックを持つ階層変換器エンコーダによって生成される多段特徴写像を徐々に洗練する。
我々のデコーダは他の階層エンコーダと簡単に使用でき、汎用的セマンティックおよび医用画像セグメンテーションタスクに利用できる。
論文 参考訳(メタデータ) (2023-10-24T20:41:04Z) - Dilated-UNet: A Fast and Accurate Medical Image Segmentation Approach
using a Dilated Transformer and U-Net Architecture [0.6445605125467572]
本稿では,Dilated-UNetについて紹介する。Dilated-UNetはDilated TransformerブロックとU-Netアーキテクチャを組み合わせることで,高精度かつ高速な医用画像セグメンテーションを実現する。
実験の結果,Dilated-UNetはいくつかの挑戦的な医用画像セグメンテーションデータセットにおいて,他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-22T17:20:13Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Atrous Residual Interconnected Encoder to Attention Decoder Framework
for Vertebrae Segmentation via 3D Volumetric CT Images [1.8146155083014204]
本稿では,3次元容積CT画像を用いた新しい椎骨分割法を提案する。
提案モデルは,ミニバッチトレーニング性能の最適化にレイヤ正規化を用いた,エンコーダからデコーダへの構造に基づく。
実験の結果,本モデルは他の医学的意味セグメンテーション法と比較して競争力が得られた。
論文 参考訳(メタデータ) (2021-04-08T12:09:16Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。