論文の概要: ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting
- arxiv url: http://arxiv.org/abs/2209.00065v1
- Date: Wed, 31 Aug 2022 18:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:50:40.878267
- Title: ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting
- Title(参考訳): ViA: モーションリターゲティングによるビュー不変スケルトン行動表現学習
- Authors: Di Yang, Yaohui Wang, Antitza Dantcheva, Lorenzo Garattoni, Gianpiero
Francesca, Francois Bremond
- Abstract要約: ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。
本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。
以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 10.811088895926776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current self-supervised approaches for skeleton action representation
learning often focus on constrained scenarios, where videos and skeleton data
are recorded in laboratory settings. When dealing with estimated skeleton data
in real-world videos, such methods perform poorly due to the large variations
across subjects and camera viewpoints. To address this issue, we introduce ViA,
a novel View-Invariant Autoencoder for self-supervised skeleton action
representation learning. ViA leverages motion retargeting between different
human performers as a pretext task, in order to disentangle the latent
action-specific `Motion' features on top of the visual representation of a 2D
or 3D skeleton sequence. Such `Motion' features are invariant to skeleton
geometry and camera view and allow ViA to facilitate both, cross-subject and
cross-view action classification tasks. We conduct a study focusing on
transfer-learning for skeleton-based action recognition with self-supervised
pre-training on real-world data (e.g., Posetics). Our results showcase that
skeleton representations learned from ViA are generic enough to improve upon
state-of-the-art action classification accuracy, not only on 3D laboratory
datasets such as NTU-RGB+D 60 and NTU-RGB+D 120, but also on real-world
datasets where only 2D data are accurately estimated, e.g., Toyota Smarthome,
UAV-Human and Penn Action.
- Abstract(参考訳): 現在のスケルトン行動表現学習の自己教師ありアプローチは、ビデオやスケルトンデータを実験室で記録する制約付きシナリオに焦点を当てていることが多い。
実世界のビデオで推定された骨格データを扱う場合、対象物やカメラの視点にばらつきがあるため、このような手法はうまく機能しない。
本稿では,自己教師型骨格行動表現学習のためのビュー不変オートエンコーダであるViAを紹介する。
ViAは、2Dまたは3Dスケルトンシーケンスの視覚的表現の上に潜伏するアクション固有の ‘Motion’ 特徴を切り離すために、異なる人間のパフォーマー間の動きの再ターゲティングをプリテキストタスクとして活用する。
このような「動き」の特徴はスケルトン幾何学やカメラビューに不変であり、viaはクロスサブジェクションとクロスビューのアクション分類タスクの両方を容易にできる。
本研究は,実世界データを用いた自己教師付き事前学習によるスケルトンベース行動認識のためのトランスファーラーニングに着目した研究である。
以上の結果から,Viaから得られた骨格表現は,NTU-RGB+D 60やNTU-RGB+D 120といった3次元実験用データセットだけでなく,Toyota Smarthome,UAV-Human,Penn Actionといった2次元データのみを正確に推定する実世界のデータセット上でも,最先端の動作分類精度の向上に十分寄与することが示された。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion [8.153034573979856]
本稿では,人間の行動理解作業の微粒化に有用な,自己監督型時間的ビデオアライメントフレームワークを提案する。
3Dスケルトン座標の配列を入力として直接取り込む最先端の手法であるCASAとは対照的に、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。
論文 参考訳(メタデータ) (2023-05-31T01:16:08Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。