論文の概要: MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2010.05599v2
- Date: Wed, 14 Oct 2020 07:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:57:29.654725
- Title: MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition
- Title(参考訳): MS$2$L:スケルトンに基づく行動認識のためのマルチタスク自己監視学習
- Authors: Lilang Lin, Sijie Song, Wenhan Yan and Jiaying Liu
- Abstract要約: 動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
- 参考スコア(独自算出の注目度): 36.74293548921099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address self-supervised representation learning from human
skeletons for action recognition. Previous methods, which usually learn feature
presentations from a single reconstruction task, may come across the
overfitting problem, and the features are not generalizable for action
recognition. Instead, we propose to integrate multiple tasks to learn more
general representations in a self-supervised manner. To realize this goal, we
integrate motion prediction, jigsaw puzzle recognition, and contrastive
learning to learn skeleton features from different aspects. Skeleton dynamics
can be modeled through motion prediction by predicting the future sequence. And
temporal patterns, which are critical for action recognition, are learned
through solving jigsaw puzzles. We further regularize the feature space by
contrastive learning. Besides, we explore different training strategies to
utilize the knowledge from self-supervised tasks for action recognition. We
evaluate our multi-task self-supervised learning approach with action
classifiers trained under different configurations, including unsupervised,
semi-supervised and fully-supervised settings. Our experiments on the NW-UCLA,
NTU RGB+D, and PKUMMD datasets show remarkable performance for action
recognition, demonstrating the superiority of our method in learning more
discriminative and general features. Our project website is available at
https://langlandslin.github.io/projects/MSL/.
- Abstract(参考訳): 本稿では,行動認識のための人体骨格からの自己指導型表現学習について述べる。
通常、1つの再構成タスクから特徴提示を学習する従来の手法は、過度に適合する問題に遭遇し、その特徴は行動認識には一般化できない。
代わりに、より一般的な表現を自己管理的に学習するために複数のタスクを統合することを提案する。
この目標を実現するために,モーション予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面からスケルトン特徴を学習する。
スケルトンダイナミクスは、将来のシーケンスを予測することによって、運動予測を通じてモデル化することができる。
そして、行動認識に不可欠な時間パターンは、ジグソーパズルを解くことによって学習される。
コントラスト学習により特徴空間をさらに規則化する。
また,行動認識のための自己監督タスクの知識を活用するための学習戦略も検討した。
我々は,マルチタスクの自己教師付き学習手法を,教師なし,半教師なし,完全教師なしの設定を含む,異なる構成で訓練された行動分類器を用いて評価する。
nw-ucla, ntu rgb+d, pkummdデータセットを用いた実験は, 行動認識に優れた性能を示し, より識別的, 汎用的な特徴を学習する手法の優位性を示した。
プロジェクトのwebサイトはhttps://langlandslin.github.io/projects/msl/で閲覧できます。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Self-Supervised Skeleton-Based Action Representation Learning: A Benchmark and Beyond [19.074841631219233]
自己教師付き学習(SSL)は骨格に基づく行動理解に有効であることが証明されている。
本稿では,自己教師型骨格に基づく行動表現学習に関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-06-05T06:21:54Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。