論文の概要: Contrast-reconstruction Representation Learning for Self-supervised
Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2111.11051v1
- Date: Mon, 22 Nov 2021 08:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:15:52.718203
- Title: Contrast-reconstruction Representation Learning for Self-supervised
Skeleton-based Action Recognition
- Title(参考訳): 自己教師型骨格認識のためのコントラスト再構成表現学習
- Authors: Peng Wang, Jun Wen, Chenyang Si, Yuntao Qian, Liang Wang
- Abstract要約: コントラスト再構成表現学習ネットワーク(CRRL)を提案する。
姿勢と運動のダイナミクスを同時に捉え、教師なし骨格に基づく行動認識を行う。
NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA といったいくつかのベンチマークの実験結果から、提案したCRRL法が実現可能であることが示された。
- 参考スコア(独自算出の注目度): 18.667198945509114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition is widely used in varied areas, e.g.,
surveillance and human-machine interaction. Existing models are mainly learned
in a supervised manner, thus heavily depending on large-scale labeled data
which could be infeasible when labels are prohibitively expensive. In this
paper, we propose a novel Contrast-Reconstruction Representation Learning
network (CRRL) that simultaneously captures postures and motion dynamics for
unsupervised skeleton-based action recognition. It mainly consists of three
parts: Sequence Reconstructor, Contrastive Motion Learner, and Information
Fuser. The Sequence Reconstructor learns representation from skeleton
coordinate sequence via reconstruction, thus the learned representation tends
to focus on trivial postural coordinates and be hesitant in motion learning. To
enhance the learning of motions, the Contrastive Motion Learner performs
contrastive learning between the representations learned from coordinate
sequence and additional velocity sequence, respectively. Finally, in the
Information Fuser, we explore varied strategies to combine the Sequence
Reconstructor and Contrastive Motion Learner, and propose to capture postures
and motions simultaneously via a knowledge-distillation based fusion strategy
that transfers the motion learning from the Contrastive Motion Learner to the
Sequence Reconstructor. Experimental results on several benchmarks, i.e., NTU
RGB+D 60, NTU RGB+D 120, CMU mocap, and NW-UCLA, demonstrate the promise of the
proposed CRRL method by far outperforming state-of-the-art approaches.
- Abstract(参考訳): 骨格に基づく行動認識は、監視や人間と機械の相互作用など、様々な分野で広く使われている。
既存のモデルは、主に教師ありの方法で学習されるため、ラベルが高価である場合には実現不可能な大規模なラベル付きデータに大きく依存する。
本稿では,非教師付きスケルトンベース行動認識のための姿勢と動作ダイナミクスを同時に捉えるコントラスト再構成表現学習ネットワーク(crrl)を提案する。
主にシーケンシャルリコンストラクタ、コントラストモーション学習者、情報使用者という3つの部分から構成されている。
シーケンスリコンストラクタは、再構成によって骨格座標列から表現を学習するので、学習された表現は、自明な姿勢座標に集中し、運動学習をためらう傾向にある。
動きの学習を強化するため、コントラスト動作学習者は、座標列から学習した表現と追加の速度列との対比学習を行う。
最後に、情報fuserにおいて、シーケンス再構築機とコントラスト動作学習機を組み合わせるための多様な戦略を探索し、コントラスト動作学習機からシーケンス再構築機へモーション学習を転送する知識蒸留ベースの融合戦略により、姿勢と動きを同時に捉えることを提案する。
NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA などのベンチマークによる実験結果は、提案したCRRL法が最先端のアプローチよりも優れていることを示す。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文 参考訳(メタデータ) (2023-09-11T21:32:13Z) - Cross-Stream Contrastive Learning for Self-Supervised Skeleton-Based
Action Recognition [22.067143671631303]
自己教師型骨格に基づく行動認識は、対照的な学習の発展とともに急速に成長する。
骨格に基づく行動表現学習(CSCLR)のためのクロスストリームコントラスト学習フレームワークを提案する。
具体的には、CSCLRはストリーム内コントラストペアを利用するだけでなく、ストリーム間コントラストペアをハードサンプルとして導入し、より良い表現学習を定式化する。
論文 参考訳(メタデータ) (2023-05-03T10:31:35Z) - Hierarchical Consistent Contrastive Learning for Skeleton-Based Action
Recognition with Growing Augmentations [33.68311764817763]
骨格に基づく行動認識のための一般的な階層的一貫したコントラスト学習フレームワーク(HiCLR)を提案する。
具体的には、まず段階的に増大する拡張ポリシーを設計し、複数の順序の正のペアを生成する。
そこで,方向クラスタリング操作による階層的整合性を実現するために,非対称な損失を提案する。
論文 参考訳(メタデータ) (2022-11-24T08:09:50Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - 3D Human Action Representation Learning via Cross-View Consistency
Pursuit [52.19199260960558]
教師なし3次元骨格に基づく行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。
CrosSCLRは、シングルビューのコントラスト学習(SkeletonCLR)とクロスビューの一貫した知識マイニング(CVC-KM)モジュールの両方で構成されています。
論文 参考訳(メタデータ) (2021-04-29T16:29:41Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z) - Augmented Skeleton Based Contrastive Action Learning with Momentum LSTM
for Unsupervised Action Recognition [16.22360992454675]
近年では3Dスケルトンデータによる行動認識が重要視されている。
本稿では,AS-CALという対照的な行動学習パラダイムを初めて提案する。
提案手法は,従来の手作り手法を10~50%の精度で改善する。
論文 参考訳(メタデータ) (2020-08-01T06:37:57Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。