論文の概要: CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification
- arxiv url: http://arxiv.org/abs/2403.16520v1
- Date: Mon, 25 Mar 2024 08:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:28:08.308923
- Title: CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification
- Title(参考訳): CMViM:AD分類のための3次元マルチモーダル表現学習のためのコントラシティブマスク付きビムオートエンコーダ
- Authors: Guangqian Yang, Kangrui Du, Zhihan Yang, Ye Du, Yongping Zheng, Shujun Wang,
- Abstract要約: アルツハイマー病(英語: Alzheimer's disease, AD)は、認知機能低下につながる神経変性疾患である。
本稿では,3次元マルチモーダルデータに適した最初の効率的な表現学習法であるContrastive Masked Vim Autoencoder (CMViM)を提案する。
- 参考スコア(独自算出の注目度): 8.843907586879475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Alzheimer's disease (AD) is an incurable neurodegenerative condition leading to cognitive and functional deterioration. Given the lack of a cure, prompt and precise AD diagnosis is vital, a complex process dependent on multiple factors and multi-modal data. While successful efforts have been made to integrate multi-modal representation learning into medical datasets, scant attention has been given to 3D medical images. In this paper, we propose Contrastive Masked Vim Autoencoder (CMViM), the first efficient representation learning method tailored for 3D multi-modal data. Our proposed framework is built on a masked Vim autoencoder to learn a unified multi-modal representation and long-dependencies contained in 3D medical images. We also introduce an intra-modal contrastive learning module to enhance the capability of the multi-modal Vim encoder for modeling the discriminative features in the same modality, and an inter-modal contrastive learning module to alleviate misaligned representation among modalities. Our framework consists of two main steps: 1) incorporate the Vision Mamba (Vim) into the mask autoencoder to reconstruct 3D masked multi-modal data efficiently. 2) align the multi-modal representations with contrastive learning mechanisms from both intra-modal and inter-modal aspects. Our framework is pre-trained and validated ADNI2 dataset and validated on the downstream task for AD classification. The proposed CMViM yields 2.7\% AUC performance improvement compared with other state-of-the-art methods.
- Abstract(参考訳): アルツハイマー病(英語: Alzheimer's disease, AD)は、認知機能低下につながる神経変性疾患である。
治療法が欠如していることから、迅速かつ正確なAD診断は不可欠であり、複雑なプロセスは複数の因子とマルチモーダルデータに依存する。
マルチモーダル表現学習を医療データセットに統合する試みは成功したが、3次元医用画像に注意が向けられている。
本稿では,3次元マルチモーダルデータに適した最初の効率的な表現学習法であるContrastive Masked Vim Autoencoder (CMViM)を提案する。
提案手法はマスク付きVimオートエンコーダ上に構築され,3次元医用画像に含まれるマルチモーダル表現と長期依存性を統一的に学習する。
また、同モードにおける識別特徴をモデル化するためのマルチモーダルVimエンコーダの能力を高めるためのモーダル内コントラスト学習モジュールと、モーダル間の不整合表現を緩和するモーダル間コントラスト学習モジュールも導入する。
私たちのフレームワークは2つの主要なステップで構成されています。
1)Vision Mamba(Vim)をマスクオートエンコーダに組み込んで、3Dマスクされたマルチモーダルデータを効率的に再構築する。
2)マルチモーダル表現は,モーダル内およびモーダル間の両方から,コントラスト学習機構と整合する。
本フレームワークは,ADNI2データセットの事前学習および検証を行い,AD分類のための下流タスクで検証する。
提案したCMViMは、他の最先端手法と比較してAUC性能が2.7\%向上する。
関連論文リスト
- Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。
以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-02-14T09:21:00Z) - Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文 参考訳(メタデータ) (2023-11-23T00:53:11Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。