論文の概要: ASMa: Asymmetric Spatio-temporal Masking for Skeleton Action Representation Learning
- arxiv url: http://arxiv.org/abs/2602.06251v1
- Date: Thu, 05 Feb 2026 22:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.151154
- Title: ASMa: Asymmetric Spatio-temporal Masking for Skeleton Action Representation Learning
- Title(参考訳): ASMA:スケルトン行動表現学習のための非対称時空間マスキング
- Authors: Aman Anand, Amir Eskandari, Elyas Rahsno, Farhana Zulkernine,
- Abstract要約: 自己教師付き学習(SSL)は骨格に基づく行動認識において顕著な成功を収めている。
既存のSSLメソッドは、主にハイモーションフレームと高次ジョイントのマスキングに焦点を当てたデータ拡張に依存している。
本研究では,行動表現学習のための非対称なS時間マスキング(ASMA)を提案する。
- 参考スコア(独自算出の注目度): 0.410492188035848
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning (SSL) has shown remarkable success in skeleton-based action recognition by leveraging data augmentations to learn meaningful representations. However, existing SSL methods rely on data augmentations that predominantly focus on masking high-motion frames and high-degree joints such as joints with degree 3 or 4. This results in biased and incomplete feature representations that struggle to generalize across varied motion patterns. To address this, we propose Asymmetric Spatio-temporal Masking (ASMa) for Skeleton Action Representation Learning, a novel combination of masking to learn a full spectrum of spatio-temporal dynamics inherent in human actions. ASMa employs two complementary masking strategies: one that selectively masks high-degree joints and low-motion, and another that masks low-degree joints and high-motion frames. These masking strategies ensure a more balanced and comprehensive skeleton representation learning. Furthermore, we introduce a learnable feature alignment module to effectively align the representations learned from both masked views. To facilitate deployment in resource-constrained settings and on low-resource devices, we compress the learned and aligned representation into a lightweight model using knowledge distillation. Extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets demonstrate that our approach outperforms existing SSL methods with an average improvement of 2.7-4.4% in fine-tuning and up to 5.9% in transfer learning to noisy datasets and achieves competitive performance compared to fully supervised baselines. Our distilled model achieves 91.4% parameter reduction and 3x faster inference on edge devices while maintaining competitive accuracy, enabling practical deployment in resource-constrained scenarios.
- Abstract(参考訳): 自己教師付き学習(SSL)は、データ拡張を利用して意味のある表現を学習することで、骨格に基づく行動認識において顕著な成功を収めている。
しかし、既存のSSLメソッドは、主にハイモーションフレームと、次数3または4のジョイントのような高次ジョイントのマスキングに焦点を当てたデータ拡張に依存している。
この結果、様々な動きパターンをまたいだ一般化に苦慮するバイアスと不完全な特徴表現が生じる。
これを解決するために,スケルトン行動表現学習のための非対称時空間マスキング (ASMA) を提案する。
ASMAは2つの補完的なマスク戦略を採用している。1つは高次関節を選択的にマスキングし、もう1つは低次関節と高運動フレームをマスキングする。
これらのマスキング戦略は、よりバランスよく包括的な骨格表現学習を保証する。
さらに,両面ビューから学習した表現を効果的に整合させるための,学習可能な機能アライメントモジュールを導入する。
資源制約された設定や低リソース装置への展開を容易にするため,知識蒸留を用いた軽量モデルに学習・整列表現を圧縮する。
NTU RGB+D 60, NTU RGB+D 120, PKU-MMDデータセットに対する大規模な実験により、我々のアプローチは既存のSSLメソッドよりも2.7-4.4%、ノイズの多いデータセットへの変換学習が最大5.9%向上し、完全に教師されたベースラインと比較して競争性能が向上することを示した。
蒸留モデルでは, 競合精度を維持しつつ, エッジデバイス上でのパラメータの91.4%削減と3倍高速な推論を実現し, 資源制約シナリオの実践的展開を可能にした。
関連論文リスト
- Dual-Branch Center-Surrounding Contrast: Rethinking Contrastive Learning for 3D Point Clouds [55.5576033344795]
本稿では,DualBranch textbfCentertextbfSurrounding textbfContrast (CSCon) フレームワークを提案する。
FULLおよびALLプロトコルでは、CSConは生成メソッドに匹敵するパフォーマンスを達成する。
提案手法は, クロスモーダルなアプローチを超越して, 最先端の成果が得られる。
論文 参考訳(メタデータ) (2025-12-09T14:56:35Z) - MIRAM: Masked Image Reconstruction Across Multiple Scales for Breast Lesion Risk Prediction [2.0199924721373392]
Masked Image Modeling (MIM) はより強力なSSL技術として登場した。
本稿では,より困難なプリテキストタスクを中心に,スケーラブルで実用的なSSLアプローチを提案する。
我々の仮説は、高解像度画像の再構成により、より微細な空間的詳細に対応することができるというものである。
論文 参考訳(メタデータ) (2025-03-10T10:32:55Z) - MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [87.64417894918506]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [85.71013961405036]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。