論文の概要: Dynamic Traceback Learning for Medical Report Generation
- arxiv url: http://arxiv.org/abs/2401.13267v3
- Date: Sat, 7 Sep 2024 07:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:32:49.181533
- Title: Dynamic Traceback Learning for Medical Report Generation
- Title(参考訳): 医療レポート作成のための動的トレースバック学習
- Authors: Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Usman Naseem, Jinman Kim,
- Abstract要約: 本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
- 参考スコア(独自算出の注目度): 12.746275623663289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated medical report generation has the potential to significantly reduce the workload associated with the time-consuming process of medical reporting. Recent generative representation learning methods have shown promise in integrating vision and language modalities for medical report generation. However, when trained end-to-end and applied directly to medical image-to-text generation, they face two significant challenges: i) difficulty in accurately capturing subtle yet crucial pathological details, and ii) reliance on both visual and textual inputs during inference, leading to performance degradation in zero-shot inference when only images are available. To address these challenges, this study proposes a novel multi-modal dynamic traceback learning framework (DTrace). Specifically, we introduce a traceback mechanism to supervise the semantic validity of generated content and a dynamic learning strategy to adapt to various proportions of image and text input, enabling text generation without strong reliance on the input from both modalities during inference. The learning of cross-modal knowledge is enhanced by supervising the model to recover masked semantic information from a complementary counterpart. Extensive experiments conducted on two benchmark datasets, IU-Xray and MIMIC-CXR, demonstrate that the proposed DTrace framework outperforms state-of-the-art methods for medical report generation.
- Abstract(参考訳): 医療報告の自動作成は、医療報告の時間的消費プロセスに関連する負担を大幅に削減する可能性がある。
最近の生成的表現学習法は、医療報告生成のためのビジョンと言語モダリティの統合を約束している。
しかし、エンド・ツー・エンドを訓練し、医用画像・テキスト生成に直接適用した場合、彼らは2つの大きな課題に直面している。
一 微妙で重要な病理的詳細を正確に把握することの難しさ及び
二 推論中の視覚的入力及びテキスト入力の双方に依存し、画像のみが利用可能である場合のゼロショット推論の性能低下。
これらの課題に対処するため,本研究では,新しいマルチモーダル動的トレースバック学習フレームワーク(DTrace)を提案する。
具体的には、生成したコンテンツのセマンティックな妥当性を監督するトレースバック機構と、画像とテキストの入力の様々な割合に適応するための動的学習戦略を導入し、推論中の両方のモダリティからの入力に強く依存せずにテキスト生成を可能にする。
モデルを監督し、補完的なモデルからマスキングされた意味情報を復元することにより、クロスモーダルな知識の学習が促進される。
2つのベンチマークデータセット(IU-XrayとMIMIC-CXR)で実施された大規模な実験により、提案したDTraceフレームワークが医療報告生成の最先端手法より優れていることが示された。
関連論文リスト
- See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning [12.40415847810958]
本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。
具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。
テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。
論文 参考訳(メタデータ) (2024-09-29T12:08:20Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation [25.874281336821685]
Exemplar-based Medical Image(CMEMS)のためのクロスモデル相互学習フレームワーク
外来医用画像のためのクロスモデル相互学習フレームワーク(CMEMS)について紹介する。
論文 参考訳(メタデータ) (2024-04-18T00:18:07Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。