論文の概要: Masked Motion Predictors are Strong 3D Action Representation Learners
- arxiv url: http://arxiv.org/abs/2308.07092v1
- Date: Mon, 14 Aug 2023 11:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:28:10.249950
- Title: Masked Motion Predictors are Strong 3D Action Representation Learners
- Title(参考訳): マスク動作予測器は強力な3次元行動表現学習者である
- Authors: Yunyao Mao, Jiajun Deng, Wengang Zhou, Yao Fang, Wanli Ouyang,
Houqiang Li
- Abstract要約: 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
- 参考スコア(独自算出の注目度): 143.9677635274393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D human action recognition, limited supervised data makes it challenging
to fully tap into the modeling potential of powerful networks such as
transformers. As a result, researchers have been actively investigating
effective self-supervised pre-training strategies. In this work, we show that
instead of following the prevalent pretext task to perform masked
self-component reconstruction in human joints, explicit contextual motion
modeling is key to the success of learning effective feature representation for
3D action recognition. Formally, we propose the Masked Motion Prediction (MAMP)
framework. To be specific, the proposed MAMP takes as input the masked
spatio-temporal skeleton sequence and predicts the corresponding temporal
motion of the masked human joints. Considering the high temporal redundancy of
the skeleton sequence, in our MAMP, the motion information also acts as an
empirical semantic richness prior that guide the masking process, promoting
better attention to semantically rich temporal regions. Extensive experiments
on NTU-60, NTU-120, and PKU-MMD datasets show that the proposed MAMP
pre-training substantially improves the performance of the adopted vanilla
transformer, achieving state-of-the-art results without bells and whistles. The
source code of our MAMP is available at https://github.com/maoyunyao/MAMP.
- Abstract(参考訳): 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
その結果、研究者は効果的な自己監督事前訓練戦略を積極的に研究している。
本研究では,人間の関節でマスキングされた自己コンポーネント再構築を行うための一般的なプリテキストタスクに従わずに,明示的な文脈的動作モデリングが3次元動作認識のための効果的な特徴表現の学習を成功させる鍵であることを示す。
本稿では,Masked Motion Prediction (MAMP) フレームワークを提案する。
具体的には、提案されたマンプは、仮面付き時空間骨格配列を入力し、仮面付きヒト関節の対応する時間運動を予測する。
骨格配列の高時間的冗長性を考えると、我々のMAMPでは、運動情報はマスキング過程を導く前に経験的意味豊かさとして機能し、意味的に豊かな時間領域に注意を向ける。
NTU-60, NTU-120, PKU-MMDデータセットの大規模な実験により、提案したMAMP事前学習は、採用したバニラ変圧器の性能を大幅に改善し、ベルやホイッスルを使わずに最先端の結果が得られることを示した。
MAMPのソースコードはhttps://github.com/maoyunyao/MAMPで公開されています。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder
and Transformer Network [1.279257604152629]
本稿では,Spiral Auto-Encoder と Transformer Network をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。
スパイラル畳み込みに基づく自動エンコーダを構築することにより、競合認識率と高いメモリ効率を示す。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。
また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。
高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文 参考訳(メタデータ) (2023-06-23T04:14:25Z) - DiffMesh: A Motion-aware Diffusion-like Framework for Human Mesh
Recovery from Videos [51.32026590626831]
ヒューマンメッシュリカバリ(Human Mesh recovery, HMR)は、さまざまな現実世界のアプリケーションに対して、リッチな人体情報を提供する。
ビデオベースのアプローチはこの問題を緩和するために時間的情報を活用する。
DiffMeshはビデオベースのHMRのための革新的な動き認識型拡散型フレームワークである。
論文 参考訳(メタデータ) (2023-03-23T16:15:18Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - TransRPPG: Remote Photoplethysmography Transformer for 3D Mask Face
Presentation Attack Detection [53.98866801690342]
3次元マスク提示攻撃検出(PAD)は、3次元マスク攻撃から顔認識システムを保護する上で重要な役割を担っている。
ライブ本質表現を効率的に学習するための純粋なrトランス(TransR)フレームワークを提案する。
当社のTransRは軽量で効率的(547Kパラメータと763MOPのみ)で、モバイルレベルのアプリケーションに期待できる。
論文 参考訳(メタデータ) (2021-04-15T12:33:13Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。