論文の概要: MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2010.05599v2
- Date: Wed, 14 Oct 2020 07:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:57:29.654725
- Title: MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition
- Title(参考訳): MS$2$L:スケルトンに基づく行動認識のためのマルチタスク自己監視学習
- Authors: Lilang Lin, Sijie Song, Wenhan Yan and Jiaying Liu
- Abstract要約: 動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
- 参考スコア(独自算出の注目度): 36.74293548921099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address self-supervised representation learning from human
skeletons for action recognition. Previous methods, which usually learn feature
presentations from a single reconstruction task, may come across the
overfitting problem, and the features are not generalizable for action
recognition. Instead, we propose to integrate multiple tasks to learn more
general representations in a self-supervised manner. To realize this goal, we
integrate motion prediction, jigsaw puzzle recognition, and contrastive
learning to learn skeleton features from different aspects. Skeleton dynamics
can be modeled through motion prediction by predicting the future sequence. And
temporal patterns, which are critical for action recognition, are learned
through solving jigsaw puzzles. We further regularize the feature space by
contrastive learning. Besides, we explore different training strategies to
utilize the knowledge from self-supervised tasks for action recognition. We
evaluate our multi-task self-supervised learning approach with action
classifiers trained under different configurations, including unsupervised,
semi-supervised and fully-supervised settings. Our experiments on the NW-UCLA,
NTU RGB+D, and PKUMMD datasets show remarkable performance for action
recognition, demonstrating the superiority of our method in learning more
discriminative and general features. Our project website is available at
https://langlandslin.github.io/projects/MSL/.
- Abstract(参考訳): 本稿では,行動認識のための人体骨格からの自己指導型表現学習について述べる。
通常、1つの再構成タスクから特徴提示を学習する従来の手法は、過度に適合する問題に遭遇し、その特徴は行動認識には一般化できない。
代わりに、より一般的な表現を自己管理的に学習するために複数のタスクを統合することを提案する。
この目標を実現するために,モーション予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面からスケルトン特徴を学習する。
スケルトンダイナミクスは、将来のシーケンスを予測することによって、運動予測を通じてモデル化することができる。
そして、行動認識に不可欠な時間パターンは、ジグソーパズルを解くことによって学習される。
コントラスト学習により特徴空間をさらに規則化する。
また,行動認識のための自己監督タスクの知識を活用するための学習戦略も検討した。
我々は,マルチタスクの自己教師付き学習手法を,教師なし,半教師なし,完全教師なしの設定を含む,異なる構成で訓練された行動分類器を用いて評価する。
nw-ucla, ntu rgb+d, pkummdデータセットを用いた実験は, 行動認識に優れた性能を示し, より識別的, 汎用的な特徴を学習する手法の優位性を示した。
プロジェクトのwebサイトはhttps://langlandslin.github.io/projects/msl/で閲覧できます。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。