論文の概要: Hierarchically Self-Supervised Transformer for Human Skeleton
Representation Learning
- arxiv url: http://arxiv.org/abs/2207.09644v1
- Date: Wed, 20 Jul 2022 04:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:22:43.570541
- Title: Hierarchically Self-Supervised Transformer for Human Skeleton
Representation Learning
- Title(参考訳): ヒト骨格表現学習のための階層的自己監督変換器
- Authors: Yuxiao Chen, Long Zhao, Jianbo Yuan, Yu Tian, Zhaoyang Xia, Shijie
Geng, Ligong Han, and Dimitris N. Metaxas
- Abstract要約: 階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前学習方式を提案する。
教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 45.13060970066485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of fully-supervised human skeleton sequence modeling,
utilizing self-supervised pre-training for skeleton sequence representation
learning has been an active field because acquiring task-specific skeleton
annotations at large scales is difficult. Recent studies focus on learning
video-level temporal and discriminative information using contrastive learning,
but overlook the hierarchical spatial-temporal nature of human skeletons.
Different from such superficial supervision at the video level, we propose a
self-supervised hierarchical pre-training scheme incorporated into a
hierarchical Transformer-based skeleton sequence encoder (Hi-TRS), to
explicitly capture spatial, short-term, and long-term temporal dependencies at
frame, clip, and video levels, respectively. To evaluate the proposed
self-supervised pre-training scheme with Hi-TRS, we conduct extensive
experiments covering three skeleton-based downstream tasks including action
recognition, action detection, and motion prediction. Under both supervised and
semi-supervised evaluation protocols, our method achieves the state-of-the-art
performance. Additionally, we demonstrate that the prior knowledge learned by
our model in the pre-training stage has strong transfer capability for
different downstream tasks.
- Abstract(参考訳): 完全教師付きヒト骨格配列モデリングの成功にもかかわらず,課題特異的な骨格アノテーションを大規模に取得することは困難であるため,自己教師付き事前学習を用いた骨格配列表現学習は活発な分野である。
近年の研究では、コントラスト学習を用いた映像レベルの時間的・判別的情報の学習に焦点が当てられているが、人間の骨格の階層的空間的・時間的性質は見過ごされている。
ビデオレベルでのこのような表面的監督とは違って,階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前訓練方式を提案し,フレーム,クリップ,ビデオレベルでの空間的,短期的,長期的依存関係を明示的に把握する。
提案手法をHi-TRSで評価するために,動作認識,行動検出,動作予測を含む3つの骨格に基づく下流作業について広範な実験を行った。
教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。
さらに,事前学習段階においてモデルが学習した事前知識が,異なる下流タスクに対して強い伝達能力を持つことを実証する。
関連論文リスト
- Self-Supervised Skeleton-Based Action Representation Learning: A Benchmark and Beyond [19.074841631219233]
自己教師付き学習(SSL)は骨格に基づく行動理解に有効であることが証明されている。
本稿では,自己教師型骨格に基づく行動表現学習に関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-06-05T06:21:54Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition [11.81043814295441]
UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
論文 参考訳(メタデータ) (2021-07-19T02:00:28Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Learning to Abstract and Predict Human Actions [60.85905430007731]
ビデオにおける人間の活動の階層構造をモデル化し,行動予測におけるそのような構造の効果を実証する。
イベントの部分的階層を観察し、その構造を複数の抽象化レベルで将来の予測にロールアウトすることで、人間の活動の構造を学習できる階層型ニューラルネットワークであるHierarchical-Refresher-Anticipatorを提案する。
論文 参考訳(メタデータ) (2020-08-20T23:57:58Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。