論文の概要: STARS: Self-supervised Tuning for 3D Action Recognition in Skeleton Sequences
- arxiv url: http://arxiv.org/abs/2407.10935v1
- Date: Mon, 15 Jul 2024 17:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:00:49.032486
- Title: STARS: Self-supervised Tuning for 3D Action Recognition in Skeleton Sequences
- Title(参考訳): STARS:スケルトン配列における3次元行動認識のための自己教師型チューニング
- Authors: Soroush Mehraban, Mohammad Javad Rajabi, Babak Taati,
- Abstract要約: マスク付き予測を用いた自己教師付き事前学習手法は骨格に基づく行動認識において顕著な内部データセット性能を示す。
対照的な学習アプローチとは異なり、それらは十分に分離されたクラスタを生成しない。
骨格列における3次元行動認識のための自己教師付きチューニング(STARS)を提案する。
- 参考スコア(独自算出の注目度): 1.6508709227918446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pretraining methods with masked prediction demonstrate remarkable within-dataset performance in skeleton-based action recognition. However, we show that, unlike contrastive learning approaches, they do not produce well-separated clusters. Additionally, these methods struggle with generalization in few-shot settings. To address these issues, we propose Self-supervised Tuning for 3D Action Recognition in Skeleton sequences (STARS). Specifically, STARS first uses a masked prediction stage using an encoder-decoder architecture. It then employs nearest-neighbor contrastive learning to partially tune the weights of the encoder, enhancing the formation of semantic clusters for different actions. By tuning the encoder for a few epochs, and without using hand-crafted data augmentations, STARS achieves state-of-the-art self-supervised results in various benchmarks, including NTU-60, NTU-120, and PKU-MMD. In addition, STARS exhibits significantly better results than masked prediction models in few-shot settings, where the model has not seen the actions throughout pretraining. Project page: https://soroushmehraban.github.io/stars/
- Abstract(参考訳): マスク付き予測を用いた自己教師付き事前学習手法は骨格に基づく行動認識において顕著な内部データセット性能を示す。
しかし、対照的な学習手法とは異なり、よく分離されたクラスタは生成しない。
さらに、これらの手法は、数ショット設定での一般化に苦慮している。
これらの課題に対処するために,Skeleton sequences (STARS) における3次元行動認識のための自己教師付きチューニングを提案する。
具体的には、STARSはまずエンコーダ-デコーダアーキテクチャを用いてマスク付き予測ステージを使用する。
次に、最寄りのコントラスト学習を用いてエンコーダの重みを部分的に調整し、異なるアクションのためのセマンティッククラスタの形成を強化する。
エンコーダを数回調整し、手作りのデータ拡張を使わずに、STARSはNTU-60、NTU-120、PKU-MMDなどの様々なベンチマークで最先端の自己監督結果を達成する。
さらに、STARSは、プレトレーニング全体を通してアクションを見ていない数ショット設定において、マスク付き予測モデルよりもはるかに優れた結果を示す。
プロジェクトページ:https://soroushmehraban.github.io/stars/
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Unveiling the Hidden Realm: Self-supervised Skeleton-based Action
Recognition in Occluded Environments [41.664437160034176]
そこで本研究では,ロボットの閉塞に対処する能力を持つ簡易かつ効果的な手法を提案する。
まず、隠蔽されたスケルトン配列を用いて事前トレーニングを行い、次にk平均クラスタリング(KMeans)を用いてシーケンス埋め込みを行い、意味的に類似したサンプルをグループ化する。
次に、K-nearest-neighbor(KNN)を用いて、最も近いサンプル隣人に基づいて、行方不明の骨格データを埋める。
論文 参考訳(メタデータ) (2023-09-21T12:51:11Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Self-Supervised 3D Action Representation Learning with Skeleton Cloud
Colorization [75.0912240667375]
3Dスケルトンをベースとした人間の行動認識は近年注目を集めている。
既存の研究のほとんどは、多数のラベル付けされたアクションシーケンスを必要とする教師あり学習に焦点を当てている。
本稿では,骨格に基づく行動認識のための自己教師付き3次元行動表現学習について述べる。
論文 参考訳(メタデータ) (2023-04-18T08:03:26Z) - SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised
Skeleton Action Recognition [13.283178393519234]
自己監督型骨格に基づく行動認識が注目されている。
ラベルのないデータを利用することで、オーバーフィッティング問題を緩和するためにより一般化可能な特徴を学ぶことができる。
自己教師型3次元骨格に基づく行動認識のための空間時間マスク付きオートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-01T20:54:27Z) - 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so
Na\"ive [28.720272938306692]
We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt。
論文 参考訳(メタデータ) (2021-12-23T16:09:23Z) - Skeleton Cloud Colorization for Unsupervised 3D Action Representation
Learning [65.88887113157627]
骨格に基づく人間の行動認識は近年注目を集めている。
我々は、ラベルのない骨格配列データから骨格表現を学習できる新しいスケルトン雲色化手法を設計する。
提案手法は,既存の教師なしおよび半教師付き3次元動作認識手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-08-04T10:55:39Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。