論文の概要: Factual Serialization Enhancement: A Key Innovation for Chest X-ray Report Generation
- arxiv url: http://arxiv.org/abs/2405.09586v1
- Date: Wed, 15 May 2024 07:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:06:04.732852
- Title: Factual Serialization Enhancement: A Key Innovation for Chest X-ray Report Generation
- Title(参考訳): Factual Serialization Enhancement:胸部X線レポート生成のキーイノベーション
- Authors: Kang Liu, Zhuoqi Ma, Mengmeng Liu, Zhicheng Jiao, Xiaolu Kang, Qiguang Miao, Kun Xie,
- Abstract要約: 本稿では,胸部X線レポート生成のためのFSE(Factual Serialization Enhancement)という新しい手法を提案する。
FSEは、レポートにおけるプレゼンテーションスタイルの語彙を排除し、我々のモデルに特定の入力を提供する。
そこで本研究では, 画像の特徴を活かして, 類似した歴史的事例をトレーニングセットから検索する手法を提案する。
- 参考スコア(独自算出の注目度): 15.82363717056198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automation of writing imaging reports is a valuable tool for alleviating the workload of radiologists. Crucial steps in this process involve the cross-modal alignment between medical images and reports, as well as the retrieval of similar historical cases. However, the presence of presentation-style vocabulary (e.g., sentence structure and grammar) in reports poses challenges for cross-modal alignment. Additionally, existing methods for similar historical cases retrieval face suboptimal performance owing to the modal gap issue. In response, this paper introduces a novel method, named Factual Serialization Enhancement (FSE), for chest X-ray report generation. FSE begins with the structural entities approach to eliminate presentation-style vocabulary in reports, providing specific input for our model. Then, uni-modal features are learned through cross-modal alignment between images and factual serialization in reports. Subsequently, we present a novel approach to retrieve similar historical cases from the training set, leveraging aligned image features. These features implicitly preserve semantic similarity with their corresponding reference reports, enabling us to calculate similarity solely among aligned features. This effectively eliminates the modal gap issue for knowledge retrieval without the requirement for disease labels. Finally, the cross-modal fusion network is employed to query valuable information from these cases, enriching image features and aiding the text decoder in generating high-quality reports. Experiments on MIMIC-CXR and IU X-ray datasets from both specific and general scenarios demonstrate the superiority of FSE over state-of-the-art approaches in both natural language generation and clinical efficacy metrics.
- Abstract(参考訳): 画像レポートの自動化は、放射線技師の作業負荷を軽減する貴重なツールである。
このプロセスにおける重要なステップは、医療画像と報告の相互調整、および同様の歴史的事例の検索である。
しかし、レポートにおけるプレゼンテーションスタイルの語彙(例えば、文構造や文法)の存在は、クロスモーダルアライメントの課題を提起している。
さらに, 類似した履歴事例の検索手法は, モーダルギャップの問題により, 最適性能を追求している。
そこで本研究では,胸部X線レポート生成のためのFSE(Factual Serialization Enhancement)という新しい手法を提案する。
FSEは、レポートの表現スタイルの語彙を排除し、我々のモデルに特定の入力を提供する構造エンティティアプローチから始まります。
次に、一様特徴は、画像間の相互アライメントと、レポートの事実シリアライズによって学習される。
そこで本研究では,画像の特徴を活かして,類似した事例をトレーニングセットから検索する手法を提案する。
これらの特徴は、対応する参照レポートと意味的類似性を暗黙的に保持し、整列した特徴間の類似性のみを計算することができる。
これにより、疾患ラベルを必要とせず、知識検索のモーダルギャップが効果的に解消される。
最後に、これらのケースから貴重な情報を検索し、画像の特徴を豊かにし、高品質なレポートを生成するためのテキストデコーダを支援するために、クロスモーダル融合ネットワークが使用される。
MIMIC-CXRおよびIU X線データセットの特定のシナリオおよび一般的なシナリオによる実験は、自然言語の生成と臨床評価の両方における最先端アプローチよりもFSEの方が優れていることを示す。
関連論文リスト
- Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation [31.370503681645804]
自由テキストラジオグラフィーレポートから高品質な事実文を抽出するための新しい2段階フレームワークを提案する。
我々のフレームワークには胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFE)も含まれている。
論文 参考訳(メタデータ) (2024-07-02T04:39:19Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Word Graph Guided Summarization for Radiology Findings [24.790502861602075]
そこで本研究では, 単語グラフを抽出し, 単語とその関係を自動印象生成する手法を提案する。
WGSum(Word Graph guided Summarization model)は、単語グラフの助けを借りて印象を生成するように設計されている。
OpenIとMIMIC-CXRの2つのデータセットによる実験結果から,提案手法の有効性と有効性が確認された。
論文 参考訳(メタデータ) (2021-12-18T13:20:18Z) - Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation [3.3978173451092437]
放射線画像から記述テキストを自動的に生成することを目的とした放射線学レポート生成。
典型的な設定は、エンコーダとデコーダのモデルを、クロスエントロピー損失のあるイメージレポートペアでトレーニングする。
本稿では,医療報告生成におけるコントラスト損失の弱化について提案する。
論文 参考訳(メタデータ) (2021-09-25T00:06:23Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。