論文の概要: MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical
Report Generation
- arxiv url: http://arxiv.org/abs/2304.07465v1
- Date: Sat, 15 Apr 2023 03:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:03:54.331722
- Title: MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical
Report Generation
- Title(参考訳): mvco-dot:医療レポート生成のためのマルチビューコントラストドメイン転送ネットワーク
- Authors: Ruizhi Wang, Xiangtao Wang, Zhenghua Xu, Wenting Xu, Junyang Chen,
Thomas Lukasiewicz
- Abstract要約: 本稿では,MvCo-DoTと呼ばれるマルチビュー医療レポート生成モデルを提案する。
MvCo-DoTはまず,多視点入力の整合性を利用する深層強化学習モデルを支援するために,多視点コントラスト学習(MvCo)戦略を提案する。
IU X-Rayの公開データセットに対する大規模な実験により、MvCo-DoTはすべての指標においてSOTAの医療レポート生成ベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 42.804058630251305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In clinical scenarios, multiple medical images with different views are
usually generated at the same time, and they have high semantic consistency.
However, the existing medical report generation methods cannot exploit the rich
multi-view mutual information of medical images. Therefore, in this work, we
propose the first multi-view medical report generation model, called MvCo-DoT.
Specifically, MvCo-DoT first propose a multi-view contrastive learning (MvCo)
strategy to help the deep reinforcement learning based model utilize the
consistency of multi-view inputs for better model learning. Then, to close the
performance gaps of using multi-view and single-view inputs, a domain transfer
network is further proposed to ensure MvCo-DoT achieve almost the same
performance as multi-view inputs using only single-view inputs.Extensive
experiments on the IU X-Ray public dataset show that MvCo-DoT outperforms the
SOTA medical report generation baselines in all metrics.
- Abstract(参考訳): 臨床シナリオでは、異なる視点を持つ複数の医療画像は、通常、同時に生成され、セマンティックな一貫性が高い。
しかし,既存の医療報告生成手法では,医用画像の多視点相互情報を活用できない。
そこで本研究では,MvCo-DoTと呼ばれるマルチビュー医療報告生成モデルを提案する。
具体的には、MvCo-DoTはまず、深層強化学習に基づくモデルにおいて、マルチビュー入力の一貫性を利用してモデル学習を改善するためのマルチビューコントラスト学習(MvCo)戦略を提案する。
次に、MvCo-DoTがシングルビュー入力のみを用いてマルチビュー入力とほぼ同等の性能を達成するために、マルチビュー入力とシングルビュー入力とのパフォーマンスギャップを埋めるため、ドメイン転送ネットワークが提案されている。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MV-Swin-T: Mammogram Classification with Multi-view Swin Transformer [0.257133335028485]
マンモグラフィ画像分類における課題に対処するために,トランスフォーマーに基づく革新的なマルチビューネットワークを提案する。
提案手法では,ウィンドウベースの動的アテンションブロックを導入し,マルチビュー情報の効果的な統合を容易にする。
論文 参考訳(メタデータ) (2024-02-26T04:41:04Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - SwinMM: Masked Multi-view with Swin Transformers for 3D Medical Image
Segmentation [32.092182889440814]
医用画像解析のための新しいマルチビューパイプラインであるSwin Transformers (SwinMM) を用いたMasked Multi-viewを提案する。
トレーニング前段階では,マスク付きマルチビュー観測を同時にトレーニングするために考案されたマスク付きマルチビューエンコーダをデプロイする。
新しいタスクは、様々な視点から予測間の一貫性を活かし、隠れた多視点情報の抽出を可能にする。
論文 参考訳(メタデータ) (2023-07-24T08:06:46Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。