論文の概要: MESEN: Exploit Multimodal Data to Design Unimodal Human Activity Recognition with Few Labels
- arxiv url: http://arxiv.org/abs/2404.01958v1
- Date: Tue, 2 Apr 2024 13:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:09:04.878923
- Title: MESEN: Exploit Multimodal Data to Design Unimodal Human Activity Recognition with Few Labels
- Title(参考訳): MESEN: 少数のラベルで一様人間活動認識を設計するマルチモーダルデータ
- Authors: Lilin Xu, Chaojie Gu, Rui Tan, Shibo He, Jiming Chen,
- Abstract要約: MESENはマルチモーダル・エンパワー・ユニモーダル・センシング・フレームワークである。
Mesenは、ラベルのないマルチモーダルデータを利用して、各モーダルに対して効果的なユニモーダル特徴を抽出する。
Mesenは最先端のベースラインよりも大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 11.853566358505434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activity recognition (HAR) will be an essential function of various emerging applications. However, HAR typically encounters challenges related to modality limitations and label scarcity, leading to an application gap between current solutions and real-world requirements. In this work, we propose MESEN, a multimodal-empowered unimodal sensing framework, to utilize unlabeled multimodal data available during the HAR model design phase for unimodal HAR enhancement during the deployment phase. From a study on the impact of supervised multimodal fusion on unimodal feature extraction, MESEN is designed to feature a multi-task mechanism during the multimodal-aided pre-training stage. With the proposed mechanism integrating cross-modal feature contrastive learning and multimodal pseudo-classification aligning, MESEN exploits unlabeled multimodal data to extract effective unimodal features for each modality. Subsequently, MESEN can adapt to downstream unimodal HAR with only a few labeled samples. Extensive experiments on eight public multimodal datasets demonstrate that MESEN achieves significant performance improvements over state-of-the-art baselines in enhancing unimodal HAR by exploiting multimodal data.
- Abstract(参考訳): HAR(Human Activity Recognition)は、様々な新興アプリケーションに欠かせない機能である。
しかし、HARは通常、モダリティの制限とラベルの不足に関連する課題に直面し、現在のソリューションと現実世界の要件の間のアプリケーションギャップを生じさせます。
本研究では,HARモデル設計フェーズで利用可能なラベルなしのマルチモーダルデータを利用して,デプロイフェーズにおける非モーダルHAR拡張を実現するための,マルチモーダル内蔵型単一モーダルセンシングフレームワークMESENを提案する。
教師付きマルチモーダル融合が単一特徴抽出に与える影響についての研究から、MESENはマルチモーダル支援事前学習段階におけるマルチタスク機構を特徴付けるように設計されている。
クロスモーダル特徴のコントラスト学習とマルチモーダル擬似分類整合を併用する機構により,MESENはラベルのないマルチモーダルデータを利用して各モーダルに対して効果的な非モーダル特徴を抽出する。
その後、MESENは数個のラベル付きサンプルで下流の単潮HARに適応できる。
8つの公開マルチモーダルデータセットに対する大規模な実験により、MESENは、マルチモーダルデータを活用することにより、一元的HARの強化において、最先端のベースラインよりも大幅なパフォーマンス向上を実現していることが示された。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment [19.067586642181368]
信頼できる音声システムを構築するには、オーディオや視覚的手がかりなど、複数のモダリティを組み合わせる必要があることが多い。
本稿では,TAMEモジュールを含むMultimodal Training and Unimodal Deployment(MUTUD)フレームワークを提案する。
この革新的なアプローチは、異なるモーダル間の情報の統合を促進し、各モーダルの強さを活用して、推論中に特定のモーダルが存在しないことを補うことによって、全体的な推論プロセスを強化する。
論文 参考訳(メタデータ) (2025-01-30T05:46:30Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - SHAPE: An Unified Approach to Evaluate the Contribution and Cooperation
of Individual Modalities [7.9602600629569285]
我々は,bf SHapley vbf Alue-based bf PErceptual (SHAPE) スコアを用いて,個々のモダリティの限界寄与度とモダリティ間の協調度を測定する。
我々の実験は、異なるモジュラリティが相補的なタスクに対して、マルチモーダルモデルは依然として支配的なモダリティのみを使用する傾向があることを示唆している。
我々のスコアは、現在のマルチモーダルモデルが様々なモダリティでどのように動作するかを理解するのに役立ち、複数のモダリティを統合するためのより洗練された方法を促進することを願っている。
論文 参考訳(メタデータ) (2022-04-30T16:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。