論文の概要: Contrastive Learning for Multimodal Human Activity Recognition with Limited Labeled Data
- arxiv url: http://arxiv.org/abs/2604.23281v1
- Date: Sat, 25 Apr 2026 12:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.248722
- Title: Contrastive Learning for Multimodal Human Activity Recognition with Limited Labeled Data
- Title(参考訳): 限定ラベルデータを用いたマルチモーダルな人間活動認識のためのコントラスト学習
- Authors: Long Jing, Zhixiong Yang, Yajun Zhang, Xinlong Feng,
- Abstract要約: ラベル付きデータを用いた人間行動認識のための一般的なコントラスト学習フレームワークであるCLMMを提案する。
CLMMは、新しい2段階トレーニング戦略を採用している。第1段階では、CNN-DiffTransformerエンコーダを使用して、クロスモーダル共有情報をキャプチャする。
第2段階では、品質誘導された注意と双方向ゲートユニットを組み合わせたデュアルブランチアーキテクチャが、モダリティ固有の情報をキャプチャする。
- 参考スコア(独自算出の注目度): 4.4110866494504615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activity recognition serves as the foundation for various emerging applications. In recent years, researchers have used collaborative sensing of multi-source sensors to capture complex and dynamic human activities. However, multimodal human activity sensing typically encounters highly heterogeneous data across modalities and label scarcity, resulting in an application gap between existing solutions and real-world needs. In this paper, we propose CLMM, a general contrastive learning framework for human activity recognition that achieves effective multimodal recognition with limited labeled data. CLMM employs a novel two-stage training strategy. In the first stage, CLMM employs a CNN-DiffTransformer encoder to capture cross-modal shared information by extracting local and global features. Meanwhile, a hard-positive samples weighting algorithm enhances gradient propagation to reinforce shared learning. In the second stage, a dual-branch architecture combining quality-guided attention and bidirectional gated units captures modality-specific information, while a primary-auxiliary collaborative training strategy fuses both shared and modality-specific information. Experimental results on three public datasets demonstrate that CLMM significantly improves state-of-the-art baselines in both recognition accuracy and convergence performance.
- Abstract(参考訳): 人間の活動認識は、様々な新興アプリケーションの基盤となっている。
近年、研究者は複雑でダイナミックな人間の活動を捉えるために、マルチソースセンサーの協調センシングを用いてきた。
しかし、マルチモーダル・ヒューマン・アクティビティ・センシングは通常、モダリティとラベルの不足にまたがる非常に異質なデータに遭遇し、既存のソリューションと現実世界のニーズの間にはアプリケーションギャップが生じる。
本稿では,ラベル付きデータによる効果的なマルチモーダル認識を実現する,人間活動認識のための一般的なコントラスト学習フレームワークであるCLMMを提案する。
CLMMは、新しい2段階の訓練戦略を採用している。
最初の段階では、CLMMはCNN-DiffTransformerエンコーダを使用して、局所的特徴とグローバルな特徴を抽出して、モダル間の共有情報をキャプチャする。
一方、サンプル重み付けアルゴリズムは、勾配伝播を強化し、共有学習を強化する。
第2段階では、品質誘導された注意と双方向ゲートユニットを組み合わせた二重ブランチアーキテクチャがモダリティ固有情報をキャプチャし、一方、一次補助的協調学習戦略は共有情報とモダリティ固有情報を融合する。
3つの公開データセットによる実験結果から,CLMMは認識精度と収束性能の両方において,最先端のベースラインを著しく向上することが示された。
関連論文リスト
- Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [8.505513517407993]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。
まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。
第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。
第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文 参考訳(メタデータ) (2025-07-03T17:37:46Z) - A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches [43.97520291340696]
本研究は、視覚に基づく触覚センサが15のアクティビティを分類する能力を評価する。
触覚とモーションデータを組み合わせたマルチモーダル・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T15:20:21Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Towards Cross-modality Medical Image Segmentation with Online Mutual
Knowledge Distillation [71.89867233426597]
本稿では,あるモダリティから学習した事前知識を活用し,別のモダリティにおけるセグメンテーション性能を向上させることを目的とする。
モーダル共有知識を徹底的に活用する新しい相互知識蒸留法を提案する。
MMWHS 2017, MMWHS 2017 を用いた多クラス心筋セグメンテーション実験の結果, CT セグメンテーションに大きな改善が得られた。
論文 参考訳(メタデータ) (2020-10-04T10:25:13Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。