論文の概要: Dual-modal Dynamic Traceback Learning for Medical Report Generation
- arxiv url: http://arxiv.org/abs/2401.13267v2
- Date: Wed, 6 Mar 2024 10:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 20:41:53.699391
- Title: Dual-modal Dynamic Traceback Learning for Medical Report Generation
- Title(参考訳): 医学レポート生成のためのdual-modal dynamic traceback learning
- Authors: Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Jinman Kim
- Abstract要約: デュアルモード動的トレースバック学習(DTrace)を用いたレポート生成フレームワークを提案する。
我々のDTraceは、自己評価によって生成されたコンテンツのセマンティックな妥当性を制御するためのトレースバック機構を導入している。
実験の結果,DTraceは最先端の医療報告生成方法よりも優れていた。
- 参考スコア(独自算出の注目度): 10.809803226381119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With increasing reliance on medical imaging in clinical practices, automated
report generation from medical images is in great demand. Existing report
generation methods typically adopt an encoder-decoder deep learning framework
to build a uni-directional image-to-report mapping. However, such a framework
ignores the bi-directional mutual associations between images and reports, thus
incurring difficulties in associating the intrinsic medical meanings between
them. Recent generative representation learning methods have demonstrated the
benefits of dual-modal learning from both image and text modalities. However,
these methods exhibit two major drawbacks for medical report generation: 1)
they tend to capture morphological information and have difficulties in
capturing subtle pathological semantic information, and 2) they predict masked
text rely on both unmasked images and text, inevitably degrading performance
when inference is based solely on images. In this study, we propose a new
report generation framework with dual-modal dynamic traceback learning (DTrace)
to overcome the two identified drawbacks and enable dual-modal learning for
medical report generation. To achieve this, our DTrace introduces a traceback
mechanism to control the semantic validity of generated content via
self-assessment. Further, our DTrace introduces a dynamic learning strategy to
adapt to various proportions of image and text input, enabling report
generation without reliance on textual input during inference. Extensive
experiments on two well-benchmarked datasets (IU-Xray and MIMIC-CXR) show that
our DTrace outperforms state-of-the-art medical report generation methods.
- Abstract(参考訳): 臨床実践における医用画像への依存度の増加に伴い,医療用画像からの自動レポート生成が求められている。
既存のレポート生成手法は通常、エンコーダ-デコーダディープラーニングフレームワークを採用して、一方向のイメージとレポートのマッピングを構築する。
しかし、このような枠組みは画像と報告間の双方向の相互関連を無視しており、両者の内在的な医学的意味を関連付けるのが困難である。
最近の生成表現学習法は、画像とテキストの両モードからデュアルモーダル学習の利点を実証している。
しかし、これらの手法は、医療報告生成の2つの大きな欠点を示す。
1)形態的情報を取り込む傾向があり、微妙な病理的意味情報を取り込むのが困難である。
2) マスクされたテキストは、マスクされていない画像とテキストの両方に依存しており、推論が画像のみに基づく場合、必然的に性能が低下する。
本研究では,この2つの欠点を克服し,医用レポート生成のためのデュアルモーダル学習を実現するために,Dual-modal dynamic traceback Learning(DTrace)を用いた新たなレポート生成フレームワークを提案する。
これを実現するため、DTraceでは、自己評価により生成されたコンテンツのセマンティックな妥当性を制御するためのトレースバック機構を導入している。
さらに,画像とテキストのさまざまな比率に対応する動的学習戦略を導入し,推論中のテキスト入力に依存しないレポート生成を可能にした。
IU-Xray(英語版)とMIMIC-CXR(英語版)の2つのよく知られたデータセットに対する大規模な実験は、DTraceが最先端の医療レポート生成方法より優れていることを示している。
関連論文リスト
- SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation [25.874281336821685]
Exemplar-based Medical Image(CMEMS)のためのクロスモデル相互学習フレームワーク
外来医用画像のためのクロスモデル相互学習フレームワーク(CMEMS)について紹介する。
論文 参考訳(メタデータ) (2024-04-18T00:18:07Z) - TiBiX: Leveraging Temporal Information for Bidirectional X-ray and Report Generation [0.7381551917607596]
TiBiX:双方向X線とレポート生成のための時間情報を活用する。
双方向X線とレポート生成のための時間情報を活用するTiBiXを提案する。
論文 参考訳(メタデータ) (2024-03-20T07:00:03Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。