論文の概要: MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements
- arxiv url: http://arxiv.org/abs/2506.02260v1
- Date: Mon, 02 Jun 2025 21:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.374691
- Title: MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements
- Title(参考訳): MoCA:デジタル健康測定のためのマルチモーダルクロスマスクオートエンコーダ
- Authors: Howon Ryu, Yuliang Chen, Yacun Wang, Andrea Z. LaCroix, Chongzhi Di, Loki Natarajan, Yu Wang, Jingjing Zou,
- Abstract要約: マルチモーダルクロスマスクオートエンコーダ(Multi-modal Cross-masked Autoencoder, MoCA)と呼ばれる自己教師型学習フレームワークを提案する。
我々は,MoCAにおけるクロスモダリティマスキング方式の有効性を理論的に保証する。
この研究は、デジタルヘルスとマルチモーダルデータにおける自己教師型学習の変革の可能性を強調している。
- 参考スコア(独自算出の注目度): 3.3531176020495046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing prevalence of digital health technologies has led to the generation of complex multi-modal data, such as physical activity measurements simultaneously collected from various sensors of mobile and wearable devices. These data hold immense potential for advancing health studies, but current methods predominantly rely on supervised learning, requiring extensive labeled datasets that are often expensive or impractical to obtain, especially in clinical studies. To address this limitation, we propose a self-supervised learning framework called Multi-modal Cross-masked Autoencoder (MoCA) that leverages cross-modality masking and the Transformer autoencoder architecture to utilize both temporal correlations within modalities and cross-modal correlations between data streams. We also provide theoretical guarantees to support the effectiveness of the cross-modality masking scheme in MoCA. Comprehensive experiments and ablation studies demonstrate that our method outperforms existing approaches in both reconstruction and downstream tasks. We release open-source code for data processing, pre-training, and downstream tasks in the supplementary materials. This work highlights the transformative potential of self-supervised learning in digital health and multi-modal data.
- Abstract(参考訳): デジタルヘルス技術の普及により、モバイルやウェアラブル機器の様々なセンサーから同時に収集される身体活動の測定など、複雑なマルチモーダルデータが生成される。
これらのデータは、健康研究を前進させる大きな可能性を秘めているが、現在の手法は、主に教師付き学習に依存しており、特に臨床研究において、入手するのに高価で実用的でない広範囲なラベル付きデータセットを必要としている。
この制限に対処するために、モーダル間マスキングとトランスフォーマーオートエンコーダアーキテクチャを利用して、データストリーム間の時間的相関とモーダル間相関の両方を利用するマルチモーダルクロスマスクオートエンコーダ(MoCA)と呼ばれる自己教師型学習フレームワークを提案する。
また,MoCAにおけるクロスモダリティマスキング方式の有効性を理論的に保証する。
包括的実験とアブレーション研究により,本手法は再建作業と下流作業の両方において既存手法より優れていることが示された。
補足材料でデータ処理、事前学習、下流タスクのためのオープンソースコードをリリースする。
この研究は、デジタルヘルスとマルチモーダルデータにおける自己教師型学習の変革の可能性を強調している。
関連論文リスト
- Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Fus-MAE: A cross-attention-based data fusion approach for Masked Autoencoders in remote sensing [5.070981175240306]
Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。
実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
論文 参考訳(メタデータ) (2024-01-05T11:36:21Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Continual Multimodal Knowledge Graph Construction [62.77243705682985]
現在のマルチモーダル知識グラフ構築(MKGC)モデルは、絶え間なく出現する実体と関係の現実的なダイナミズムに苦慮している。
本研究では,連続的なMKGCドメインの開発を促進するためのベンチマークを紹介する。
マルチメディアデータ処理における既存のMKGCアプローチの欠点を克服するMSPTフレームワークを導入する。
論文 参考訳(メタデータ) (2023-05-15T14:58:28Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。