論文の概要: Masked Motion Predictors are Strong 3D Action Representation Learners
- arxiv url: http://arxiv.org/abs/2308.07092v1
- Date: Mon, 14 Aug 2023 11:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:28:10.249950
- Title: Masked Motion Predictors are Strong 3D Action Representation Learners
- Title(参考訳): マスク動作予測器は強力な3次元行動表現学習者である
- Authors: Yunyao Mao, Jiajun Deng, Wengang Zhou, Yao Fang, Wanli Ouyang,
Houqiang Li
- Abstract要約: 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
- 参考スコア(独自算出の注目度): 143.9677635274393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D human action recognition, limited supervised data makes it challenging
to fully tap into the modeling potential of powerful networks such as
transformers. As a result, researchers have been actively investigating
effective self-supervised pre-training strategies. In this work, we show that
instead of following the prevalent pretext task to perform masked
self-component reconstruction in human joints, explicit contextual motion
modeling is key to the success of learning effective feature representation for
3D action recognition. Formally, we propose the Masked Motion Prediction (MAMP)
framework. To be specific, the proposed MAMP takes as input the masked
spatio-temporal skeleton sequence and predicts the corresponding temporal
motion of the masked human joints. Considering the high temporal redundancy of
the skeleton sequence, in our MAMP, the motion information also acts as an
empirical semantic richness prior that guide the masking process, promoting
better attention to semantically rich temporal regions. Extensive experiments
on NTU-60, NTU-120, and PKU-MMD datasets show that the proposed MAMP
pre-training substantially improves the performance of the adopted vanilla
transformer, achieving state-of-the-art results without bells and whistles. The
source code of our MAMP is available at https://github.com/maoyunyao/MAMP.
- Abstract(参考訳): 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
その結果、研究者は効果的な自己監督事前訓練戦略を積極的に研究している。
本研究では,人間の関節でマスキングされた自己コンポーネント再構築を行うための一般的なプリテキストタスクに従わずに,明示的な文脈的動作モデリングが3次元動作認識のための効果的な特徴表現の学習を成功させる鍵であることを示す。
本稿では,Masked Motion Prediction (MAMP) フレームワークを提案する。
具体的には、提案されたマンプは、仮面付き時空間骨格配列を入力し、仮面付きヒト関節の対応する時間運動を予測する。
骨格配列の高時間的冗長性を考えると、我々のMAMPでは、運動情報はマスキング過程を導く前に経験的意味豊かさとして機能し、意味的に豊かな時間領域に注意を向ける。
NTU-60, NTU-120, PKU-MMDデータセットの大規模な実験により、提案したMAMP事前学習は、採用したバニラ変圧器の性能を大幅に改善し、ベルやホイッスルを使わずに最先端の結果が得られることを示した。
MAMPのソースコードはhttps://github.com/maoyunyao/MAMPで公開されています。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - Past Movements-Guided Motion Representation Learning for Human Motion Prediction [0.0]
動作表現の強化を目的とした自己教師型学習フレームワークを提案する。
フレームワークは、まず、過去のシーケンスの自己再構成を通じてネットワークを事前訓練し、過去の動きに基づく将来のシーケンスのガイド付き再構築を行う。
提案手法は,Human3.6,3DPW,AMASSデータセットの平均予測誤差を8.8%削減する。
論文 参考訳(メタデータ) (2024-08-04T17:00:37Z) - Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。
本稿では,SKD-TSTSANと呼ばれる自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-25T13:22:22Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。