論文の概要: MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning
- arxiv url: http://arxiv.org/abs/2408.04243v1
- Date: Thu, 8 Aug 2024 06:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:29:12.436065
- Title: MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning
- Title(参考訳): MU-MAE:マルチモーダルマスクオートエンコーダを用いたワンショット学習
- Authors: Rex Liu, Xin Liu,
- Abstract要約: マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
- 参考スコア(独自算出の注目度): 3.520960737058199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the exponential growth of multimedia data, leveraging multimodal sensors presents a promising approach for improving accuracy in human activity recognition. Nevertheless, accurately identifying these activities using both video data and wearable sensor data presents challenges due to the labor-intensive data annotation, and reliance on external pretrained models or additional data. To address these challenges, we introduce Multimodal Masked Autoencoders-Based One-Shot Learning (Mu-MAE). Mu-MAE integrates a multimodal masked autoencoder with a synchronized masking strategy tailored for wearable sensors. This masking strategy compels the networks to capture more meaningful spatiotemporal features, which enables effective self-supervised pretraining without the need for external data. Furthermore, Mu-MAE leverages the representation extracted from multimodal masked autoencoders as prior information input to a cross-attention multimodal fusion layer. This fusion layer emphasizes spatiotemporal features requiring attention across different modalities while highlighting differences from other classes, aiding in the classification of various classes in metric-based one-shot learning. Comprehensive evaluations on MMAct one-shot classification show that Mu-MAE outperforms all the evaluated approaches, achieving up to an 80.17% accuracy for five-way one-shot multimodal classification, without the use of additional data.
- Abstract(参考訳): マルチメディアデータの指数的成長により、マルチモーダルセンサを活用することで、人間の活動認識の精度を向上させるための有望なアプローチが提示される。
それにもかかわらず、ビデオデータとウェアラブルセンサーデータの両方を用いてこれらのアクティビティを正確に識別することは、労働集約的なデータアノテーションと、外部の事前訓練されたモデルや追加データへの依存による課題を示す。
これらの課題に対処するために,マルチモーダルマスクオートエンコーダに基づくワンショット学習(Mu-MAE)を導入する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
このマスキング戦略はネットワークを補完し、より意味のある時空間的特徴を捉え、外部データを必要としない効果的な自己教師付き事前訓練を可能にする。
さらに、Mu-MAEは、マルチモーダルマスク付きオートエンコーダから抽出した表現を、クロスアテンションマルチモーダル融合層への事前情報入力として利用する。
この融合層は、異なるモダリティに注意を要する時空間的特徴を強調し、他のクラスとの違いを強調し、メトリックベースのワンショット学習における様々なクラスの分類を支援する。
MMActワンショット分類の総合的な評価は、M-MAEが評価された全てのアプローチより優れており、追加データを用いることなく5方向ワンショットのマルチモーダル分類において最大80.17%の精度を達成していることを示している。
関連論文リスト
- Resource-Efficient Multiview Perception: Integrating Semantic Masking with Masked Autoencoders [6.498925999634298]
本稿では、マスク付きオートエンコーダ(MAE)を用いた通信効率の高い分散マルチビュー検出と追跡のための新しい手法を提案する。
本稿では,事前訓練されたセグメンテーションモデルと調整可能なパワー関数を利用して,情報領域の優先順位付けを行う意味誘導型マスキング手法を提案する。
我々は,仮想および実世界のマルチビューデータセットを用いて本手法の評価を行い,性能指標の検出と追跡において同等の性能を示す。
論文 参考訳(メタデータ) (2024-10-07T08:06:41Z) - Multi-layer Learnable Attention Mask for Multimodal Tasks [2.378535917357144]
ラーナブル・アテンション・マスク(LAM)は、グローバルなアテンションマップの規制と重要なトークンの優先順位付けのために戦略的に設計された。
LAMはBERTのようなトランスフォーマーネットワークでトークン間の関連を受信する。
MADv2、QVHighlights、ImageNet 1K、MSRVTTなど、さまざまなデータセットに対する総合的な実験的検証。
論文 参考訳(メタデータ) (2024-06-04T20:28:02Z) - MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition [0.19285000127136376]
本稿では,動的感情認識のための動的感情認識のためのデータ処理手法であるMulti Masked Autoencoder for Dynamic Emotion (MAE-DER)を提案する。
プリトレーニングされたマスク付きオートエンコーダを利用することで、MultiMAE-DERは単純で簡単な微調整によって実現される。
論文 参考訳(メタデータ) (2024-04-28T21:53:42Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Fus-MAE: A cross-attention-based data fusion approach for Masked
Autoencoders in remote sensing [5.990692497580643]
Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。
実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
論文 参考訳(メタデータ) (2024-01-05T11:36:21Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。