論文の概要: C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network
- arxiv url: http://arxiv.org/abs/2310.05355v1
- Date: Mon, 9 Oct 2023 02:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:09:29.700783
- Title: C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network
- Title(参考訳): C^2M-DoT:ドメイン転送ネットワークを用いたクロスモーダル一貫した医療報告生成
- Authors: Ruizhi Wang, Xiangtao Wang, Jie Zhou, Thomas Lukasiewicz, Zhenghua Xu
- Abstract要約: ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 67.97926983664676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In clinical scenarios, multiple medical images with different views are
usually generated simultaneously, and these images have high semantic
consistency. However, most existing medical report generation methods only
consider single-view data. The rich multi-view mutual information of medical
images can help generate more accurate reports, however, the dependence of
multi-view models on multi-view data in the inference stage severely limits
their application in clinical practice. In addition, word-level optimization
based on numbers ignores the semantics of reports and medical images, and the
generated reports often cannot achieve good performance. Therefore, we propose
a cross-modal consistent multi-view medical report generation with a domain
transfer network (C^2M-DoT). Specifically, (i) a semantic-based multi-view
contrastive learning medical report generation framework is adopted to utilize
cross-view information to learn the semantic representation of lesions; (ii) a
domain transfer network is further proposed to ensure that the multi-view
report generation model can still achieve good inference performance under
single-view input; (iii) meanwhile, optimization using a cross-modal
consistency loss facilitates the generation of textual reports that are
semantically consistent with medical images. Extensive experimental studies on
two public benchmark datasets demonstrate that C^2M-DoT substantially
outperforms state-of-the-art baselines in all metrics. Ablation studies also
confirmed the validity and necessity of each component in C^2M-DoT.
- Abstract(参考訳): 臨床シナリオでは、異なる視点を持つ複数の医療画像が同時に生成され、これらの画像は高いセマンティック一貫性を有する。
しかし、既存の医療レポート生成手法のほとんどは、シングルビューデータのみを考慮に入れている。
医療画像のリッチな多視点相互情報により,より正確な報告が得られるが,推測段階における多視点データへの多視点モデルの依存は臨床応用を厳しく制限している。
さらに、数字に基づく単語レベルの最適化は、レポートや医療画像の意味を無視し、生成されたレポートは、しばしば優れた性能を達成できない。
そこで本研究では,ドメイン転送ネットワーク(C^2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
具体的には
i) 横断的な情報を用いて病変の意味表現を学ぶために, 意味に基づく多視点学習医療報告作成フレームワークを採用する。
(II)マルチビューレポート生成モデルがシングルビュー入力下でも良好な推論性能が得られるよう、ドメイン転送ネットワークをさらに提案する。
(iii)一方、クロスモーダル一貫性損失を用いた最適化は、医用画像と意味的に一貫性のあるテキストレポートの生成を容易にする。
C^2M-DoTは、すべての指標において、最先端のベースラインを大幅に上回っている。
また, C^2M-DoTにおける各成分の有効性と必要性についても検討した。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical
Report Generation [42.804058630251305]
本稿では,MvCo-DoTと呼ばれるマルチビュー医療レポート生成モデルを提案する。
MvCo-DoTはまず,多視点入力の整合性を利用する深層強化学習モデルを支援するために,多視点コントラスト学習(MvCo)戦略を提案する。
IU X-Rayの公開データセットに対する大規模な実験により、MvCo-DoTはすべての指標においてSOTAの医療レポート生成ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-04-15T03:42:26Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。