論文の概要: Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation
- arxiv url: http://arxiv.org/abs/2311.11090v1
- Date: Sat, 18 Nov 2023 14:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 12:33:15.150527
- Title: Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation
- Title(参考訳): beyond images:胸部x線レポート生成のための統合的マルチモーダルアプローチ
- Authors: Nurbanu Aksoy, Serge Sharoff, Selcuk Baser, Nishant Ravikumar and
Alejandro F Frangi
- Abstract要約: 画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
- 参考スコア(独自算出の注目度): 47.250147322130545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image-to-text radiology report generation aims to automatically produce
radiology reports that describe the findings in medical images. Most existing
methods focus solely on the image data, disregarding the other patient
information accessible to radiologists. In this paper, we present a novel
multi-modal deep neural network framework for generating chest X-rays reports
by integrating structured patient data, such as vital signs and symptoms,
alongside unstructured clinical notes.We introduce a conditioned
cross-multi-head attention module to fuse these heterogeneous data modalities,
bridging the semantic gap between visual and textual data. Experiments
demonstrate substantial improvements from using additional modalities compared
to relying on images alone. Notably, our model achieves the highest reported
performance on the ROUGE-L metric compared to relevant state-of-the-art models
in the literature. Furthermore, we employed both human evaluation and clinical
semantic similarity measurement alongside word-overlap metrics to improve the
depth of quantitative analysis. A human evaluation, conducted by a
board-certified radiologist, confirms the model's accuracy in identifying
high-level findings, however, it also highlights that more improvement is
needed to capture nuanced details and clinical context.
- Abstract(参考訳): 画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法のほとんどは画像データのみに焦点を当てており、放射線科医がアクセス可能な他の患者情報を無視している。
本稿では, 胸部X線レポートを生成するための新しいマルチモーダルディープ・ニューラルネットワーク・フレームワークについて, バイタルサインや症状などの構造化された患者データと非構造化な臨床ノートを併用し, 異種データモダリティを融合させ, 視覚的データとテキスト的データのセマンティックギャップを埋める条件付きマルチモーダル・アテンション・モジュールを提案する。
実験では、画像のみに依存することに比べて、追加のモダリティの使用による大幅な改善が示されている。
特に,本モデルがROUGE-L測定値において,文献中の関連する最先端モデルと比較して最も高い性能を示した。
さらに, 定量的分析の深度向上のために, 単語オーバーラップの指標とともに, 人的評価と臨床的意味的類似度の測定を併用した。
放射線技師による人間による評価は、高レベルの発見を識別する際のモデルの精度を確認するが、ニュアンスドの詳細や臨床の文脈を捉えるためにはさらなる改善が必要であることも強調している。
関連論文リスト
- Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - An Empirical Analysis for Zero-Shot Multi-Label Classification on
COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。
新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。
本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文 参考訳(メタデータ) (2023-09-04T17:58:01Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。