論文の概要: Augmented Skeleton Based Contrastive Action Learning with Momentum LSTM
for Unsupervised Action Recognition
- arxiv url: http://arxiv.org/abs/2008.00188v4
- Date: Fri, 2 Apr 2021 08:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:46:39.153196
- Title: Augmented Skeleton Based Contrastive Action Learning with Momentum LSTM
for Unsupervised Action Recognition
- Title(参考訳): モメンタムLSTMを用いた教師なし行動認識のための拡張スケルトンに基づくコントラスト行動学習
- Authors: Haocong Rao, Shihao Xu, Xiping Hu, Jun Cheng, Bin Hu
- Abstract要約: 近年では3Dスケルトンデータによる行動認識が重要視されている。
本稿では,AS-CALという対照的な行動学習パラダイムを初めて提案する。
提案手法は,従来の手作り手法を10~50%の精度で改善する。
- 参考スコア(独自算出の注目度): 16.22360992454675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition via 3D skeleton data is an emerging important topic in
these years. Most existing methods either extract hand-crafted descriptors or
learn action representations by supervised learning paradigms that require
massive labeled data. In this paper, we for the first time propose a
contrastive action learning paradigm named AS-CAL that can leverage different
augmentations of unlabeled skeleton data to learn action representations in an
unsupervised manner. Specifically, we first propose to contrast similarity
between augmented instances (query and key) of the input skeleton sequence,
which are transformed by multiple novel augmentation strategies, to learn
inherent action patterns ("pattern-invariance") of different skeleton
transformations. Second, to encourage learning the pattern-invariance with more
consistent action representations, we propose a momentum LSTM, which is
implemented as the momentum-based moving average of LSTM based query encoder,
to encode long-term action dynamics of the key sequence. Third, we introduce a
queue to store the encoded keys, which allows our model to flexibly reuse
proceeding keys and build a more consistent dictionary to improve contrastive
learning. Last, by temporally averaging the hidden states of action learned by
the query encoder, a novel representation named Contrastive Action Encoding
(CAE) is proposed to represent human's action effectively. Extensive
experiments show that our approach typically improves existing hand-crafted
methods by 10-50% top-1 accuracy, and it can achieve comparable or even
superior performance to numerous supervised learning methods.
- Abstract(参考訳): 近年では3Dスケルトンデータによる行動認識が重要になっている。
既存のほとんどの手法は手作りの記述子を抽出するか、大量のラベル付きデータを必要とする教師付き学習パラダイムによって行動表現を学ぶ。
本稿では,無ラベルスケルトンデータの異なる拡張を利用して,教師なしの方法で行動表現を学習する,AS-CALという対照的な行動学習パラダイムを初めて提案する。
具体的には,複数の新規な拡張戦略によって変換される入力スケルトン列の拡張インスタンス(クエリとキー)間の類似性を比較し,異なるスケルトン変換の固有動作パターン(パターン不変性)を学習することを提案する。
第二に、より一貫した動作表現によるパターン不変性の学習を促進するために、LSTMベースのクエリエンコーダの運動量に基づく移動平均として実装された運動量LSTMを提案する。
第三に、符号化キーを格納するキューを導入し、これにより、進行キーを柔軟に再利用し、コントラスト学習を改善するためにより一貫性のある辞書を構築することができる。
最後に、クエリエンコーダによって学習された隠れた動作状態を時間的に平均化することにより、人間の行動を効果的に表現するために、Contrastive Action Encoding (CAE)と呼ばれる新しい表現を提案する。
大規模な実験により,本手法は従来の手作り手法を10~50%の精度で改善し,多数の教師付き学習手法に匹敵する,あるいはさらに優れた性能が得られることが示された。
関連論文リスト
- Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Improving Contrastive Learning with Model Augmentation [123.05700988581806]
このシーケンシャルレコメンデーションは,ユーザ行動における次の項目を予測することを目的としている。
シーケンスにおけるデータの分散性やノイズの問題から,新たな自己教師付き学習(SSL)パラダイムが提案され,性能が向上した。
論文 参考訳(メタデータ) (2022-03-25T06:12:58Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Contrastively Disentangled Sequential Variational Autoencoder [20.75922928324671]
本稿では,C-DSVAE(Contrastively Disentangled Sequential Variational Autoencoder)という新しいシーケンス表現学習手法を提案する。
我々は,静的因子と動的因子の相互情報をペナルティ化しながら,入力と潜伏因子の相互情報を最大化する新しいエビデンスローバウンドを用いる。
実験の結果、C-DSVAEは従来の最先端の手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2021-10-22T23:00:32Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。