Fugu-MT 論文翻訳(概要): Masked Motion Predictors are Strong 3D Action Representation Learners

論文の概要: Masked Motion Predictors are Strong 3D Action Representation Learners

arxiv url: http://arxiv.org/abs/2308.07092v1
Date: Mon, 14 Aug 2023 11:56:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 13:28:10.249950
Title: Masked Motion Predictors are Strong 3D Action Representation Learners
Title（参考訳）: マスク動作予測器は強力な3次元行動表現学習者である
Authors: Yunyao Mao, Jiajun Deng, Wengang Zhou, Yao Fang, Wanli Ouyang, Houqiang Li
Abstract要約: 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
参考スコア（独自算出の注目度）: 143.9677635274393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In 3D human action recognition, limited supervised data makes it challenging to fully tap into the modeling potential of powerful networks such as transformers. As a result, researchers have been actively investigating effective self-supervised pre-training strategies. In this work, we show that instead of following the prevalent pretext task to perform masked self-component reconstruction in human joints, explicit contextual motion modeling is key to the success of learning effective feature representation for 3D action recognition. Formally, we propose the Masked Motion Prediction (MAMP) framework. To be specific, the proposed MAMP takes as input the masked spatio-temporal skeleton sequence and predicts the corresponding temporal motion of the masked human joints. Considering the high temporal redundancy of the skeleton sequence, in our MAMP, the motion information also acts as an empirical semantic richness prior that guide the masking process, promoting better attention to semantically rich temporal regions. Extensive experiments on NTU-60, NTU-120, and PKU-MMD datasets show that the proposed MAMP pre-training substantially improves the performance of the adopted vanilla transformer, achieving state-of-the-art results without bells and whistles. The source code of our MAMP is available at https://github.com/maoyunyao/MAMP.
Abstract（参考訳）: 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。その結果、研究者は効果的な自己監督事前訓練戦略を積極的に研究している。本研究では,人間の関節でマスキングされた自己コンポーネント再構築を行うための一般的なプリテキストタスクに従わずに,明示的な文脈的動作モデリングが3次元動作認識のための効果的な特徴表現の学習を成功させる鍵であることを示す。本稿では,Masked Motion Prediction (MAMP) フレームワークを提案する。具体的には、提案されたマンプは、仮面付き時空間骨格配列を入力し、仮面付きヒト関節の対応する時間運動を予測する。骨格配列の高時間的冗長性を考えると、我々のMAMPでは、運動情報はマスキング過程を導く前に経験的意味豊かさとして機能し、意味的に豊かな時間領域に注意を向ける。 NTU-60, NTU-120, PKU-MMDデータセットの大規模な実験により、提案したMAMP事前学習は、採用したバニラ変圧器の性能を大幅に改善し、ベルやホイッスルを使わずに最先端の結果が得られることを示した。 MAMPのソースコードはhttps://github.com/maoyunyao/MAMPで公開されています。

関連論文リスト

Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos [32.71627274876863]
本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスクに沿ったアクションシーケンスを生成することを目的とする。これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。本研究では,拡散モデル内に潜時空間時間モジュールを導入した仮設仮設時間補間拡散モデルを提案する。
論文参考訳（メタデータ） (2025-07-04T08:54:59Z)
Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-29T12:08:02Z)
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。私たちのフレームワークは、3つの新しい目標のファミリーにつながります。 Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文参考訳（メタデータ） (2024-10-10T17:18:30Z)
MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文参考訳（メタデータ） (2024-08-06T17:29:01Z)
Past Movements-Guided Motion Representation Learning for Human Motion Prediction [0.0]
動作表現の強化を目的とした自己教師型学習フレームワークを提案する。フレームワークは、まず、過去のシーケンスの自己再構成を通じてネットワークを事前訓練し、過去の動きに基づく将来のシーケンスのガイド付き再構築を行う。提案手法は,Human3.6,3DPW,AMASSデータセットの平均予測誤差を8.8%削減する。
論文参考訳（メタデータ） (2024-08-04T17:00:37Z)
Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。本稿では,SKD-TSTSANと呼ばれる自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文参考訳（メタデータ） (2024-06-25T13:22:22Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-01-01T12:08:35Z)
Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。 3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文参考訳（メタデータ） (2023-08-08T01:27:55Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
Transformer Inertial Poser: Attention-based Real-time Human Motion Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文参考訳（メタデータ） (2022-03-29T16:24:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。