Fugu-MT 論文翻訳(概要): MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements

論文の概要: MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements

arxiv url: http://arxiv.org/abs/2506.02260v3
Date: Fri, 19 Sep 2025 05:46:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-22 16:14:15.512735
Title: MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements
Title（参考訳）: MoCA:デジタル健康測定のためのマルチモーダルクロスマスクオートエンコーダ
Authors: Howon Ryu, Yuliang Chen, Yacun Wang, Andrea Z. LaCroix, Chongzhi Di, Loki Natarajan, Yu Wang, Jingjing Zou,
Abstract要約: マルチモーダル・クロスマスクオートエンコーダ(Multi-modal Cross-masked Autoencoder, MOCA)は,トランスフォーマアーキテクチャとマスク付きオートエンコーダ(MAE)手法を組み合わせた自己教師型学習フレームワークである。 MoCAは、さまざまなベンチマークデータセット上で、再構築と下流分類タスク間で強力なパフォーマンス向上を示す。当社のアプローチは、デジタルヘルス領域にまたがる幅広い応用で、未ラベルのマルチモーダルウェアラブルデータを活用するための新しいソリューションを提供する。
参考スコア（独自算出の注目度）: 2.8493802389913694
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Wearable devices enable continuous multi-modal physiological and behavioral monitoring, yet analysis of these data streams faces fundamental challenges including the lack of gold-standard labels and incomplete sensor data. While self-supervised learning approaches have shown promise for addressing these issues, existing multi-modal extensions present opportunities to better leverage the rich temporal and cross-modal correlations inherent in simultaneously recorded wearable sensor data. We propose the Multi-modal Cross-masked Autoencoder (MoCA), a self-supervised learning framework that combines transformer architecture with masked autoencoder (MAE) methodology, using a principled cross-modality masking scheme that explicitly leverages correlation structures between sensor modalities. MoCA demonstrates strong performance boosts across reconstruction and downstream classification tasks on diverse benchmark datasets. We further establish theoretical guarantees by establishing a fundamental connection between multi-modal MAE loss and kernelized canonical correlation analysis through a Reproducing Kernel Hilbert Space framework, providing principled guidance for correlation-aware masking strategy design. Our approach offers a novel solution for leveraging unlabeled multi-modal wearable data while handling missing modalities, with broad applications across digital health domains.
Abstract（参考訳）: ウェアラブルデバイスは、連続したマルチモーダルな生理的および行動的モニタリングを可能にするが、これらのデータストリームの分析は、ゴールドスタンダードラベルの欠如や不完全なセンサーデータなど、基本的な課題に直面している。自己教師付き学習アプローチはこれらの問題に対処する公約を示しているが、既存のマルチモーダル拡張は、同時に記録されたウェアラブルセンサーデータに固有の、時間的および相互モーダル相関をよりよく活用する機会を提供する。本稿では,マルチモーダル・クロスマスケッド・オートエンコーダ(Multi-modal Cross-masked Autoencoder, MoCA)を提案する。 MoCAは、さまざまなベンチマークデータセット上で、再構築と下流分類タスク間で強力なパフォーマンス向上を示す。我々はさらに、マルチモーダルMAE損失とカーネル化された正準相関解析の基本的な関係を確立することで理論的保証を確立し、相関対応マスキング戦略設計の原則的なガイダンスを提供する。当社のアプローチは、デジタルヘルス領域にまたがる幅広い応用で、未ラベルのマルチモーダルウェアラブルデータを活用するための新しいソリューションを提供する。

関連論文リスト

Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文参考訳（メタデータ） (2024-09-17T17:22:35Z)
Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文参考訳（メタデータ） (2024-05-24T11:18:13Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Fus-MAE: A cross-attention-based data fusion approach for Masked Autoencoders in remote sensing [5.070981175240306]
Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
論文参考訳（メタデータ） (2024-01-05T11:36:21Z)
HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。 The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。 HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-15T17:06:26Z)
Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-07-09T08:58:47Z)
Continual Multimodal Knowledge Graph Construction [62.77243705682985]
現在のマルチモーダル知識グラフ構築(MKGC)モデルは、絶え間なく出現する実体と関係の現実的なダイナミズムに苦慮している。本研究では,連続的なMKGCドメインの開発を促進するためのベンチマークを紹介する。マルチメディアデータ処理における既存のMKGCアプローチの欠点を克服するMSPTフレームワークを導入する。
論文参考訳（メタデータ） (2023-05-15T14:58:28Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)
Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。 on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文参考訳（メタデータ） (2022-01-07T07:46:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。