論文の概要: Multitask Non-Autoregressive Model for Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2007.06426v1
- Date: Mon, 13 Jul 2020 15:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:16:32.420506
- Title: Multitask Non-Autoregressive Model for Human Motion Prediction
- Title(参考訳): マルチタスク非自己回帰モデルによる人間の動作予測
- Authors: Bin Li, Jian Tian, Zhongfei Zhang, Hailin Feng, and Xi Li
- Abstract要約: 非auToregressive Model (NAT) は、文脈エンコーダと位置エンコードモジュールと同様に、完全な非自己回帰復号方式で提案される。
提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。
- 参考スコア(独自算出の注目度): 33.98939145212708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion prediction, which aims at predicting future human skeletons
given the past ones, is a typical sequence-to-sequence problem. Therefore,
extensive efforts have been continued on exploring different RNN-based
encoder-decoder architectures. However, by generating target poses conditioned
on the previously generated ones, these models are prone to bringing issues
such as error accumulation problem. In this paper, we argue that such issue is
mainly caused by adopting autoregressive manner. Hence, a novel
Non-auToregressive Model (NAT) is proposed with a complete non-autoregressive
decoding scheme, as well as a context encoder and a positional encoding module.
More specifically, the context encoder embeds the given poses from temporal and
spatial perspectives. The frame decoder is responsible for predicting each
future pose independently. The positional encoding module injects positional
signal into the model to indicate temporal order. Moreover, a multitask
training paradigm is presented for both low-level human skeleton prediction and
high-level human action recognition, resulting in the convincing improvement
for the prediction task. Our approach is evaluated on Human3.6M and CMU-Mocap
benchmarks and outperforms state-of-the-art autoregressive methods.
- Abstract(参考訳): 人間の動作予測は、過去に与えられた人間の骨格を予測することを目的としており、典型的なシーケンス・ツー・シーケンスの問題である。
そのため、様々なRNNベースのエンコーダデコーダアーキテクチャの探索が続けられている。
しかし、以前に生成されたターゲットポーズを条件に生成することで、これらのモデルはエラー蓄積問題などの問題を引き起こす傾向にある。
本稿では,このような問題は主に自己回帰的手法によるものであると論じる。
したがって、新しい非自己回帰モデル(nat)は、コンテクストエンコーダと位置符号化モジュールとともに完全な非自己回帰復号スキームと共に提案されている。
より具体的には、コンテキストエンコーダは時間的および空間的視点から与えられたポーズを埋め込む。
フレームデコーダは、各将来のポーズを独立して予測する責任を負う。
位置符号化モジュールは、時間順を示すために位置信号をモデルに注入する。
さらに、低レベルヒト骨格予測と高レベルヒト行動認識の両方にマルチタスクトレーニングパラダイムを提示し、予測タスクに説得力のある改善をもたらす。
提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Multiscale Residual Learning of Graph Convolutional Sequence Chunks for
Human Motion Prediction [23.212848643552395]
時間的および空間的依存関係の学習による人間の動作予測のための新しい手法を提案する。
提案手法は,動作予測のためのシーケンス情報を効果的にモデル化し,他の手法よりも優れ,新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2023-08-31T15:23:33Z) - Spatio-Temporal Encoding of Brain Dynamics with Surface Masked Autoencoders [10.097983222759884]
表面仮面オートエンコーダ(sMAE)と表面仮面オートエンコーダ(MAE)
これらのモデルは、皮質発達と構造関数の強力な潜在表現を学習することにより、入力のマスクされたバージョンから皮質特徴写像を再構築するように訓練されている。
以上の結果から, (v)sMAE事前学習モデルでは, 複数のタスクにおける表現型予測性能が約26%向上し,スクラッチからトレーニングしたモデルに対してより高速な収束が得られた。
論文 参考訳(メタデータ) (2023-08-10T10:01:56Z) - CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion [6.862357145175449]
本稿では,単一段階の終端拡散型HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな将来のポーズ予測性能が空間予測性能を改善するという洞察から着想を得ている。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作を予測する。
論文 参考訳(メタデータ) (2023-05-21T19:31:56Z) - PoseGPT: Quantization-based 3D Human Motion Generation and Forecasting [16.033044724498296]
本稿では,人間の動きを量子化された潜伏列に内部的に圧縮する自動回帰変換器のPoseGPTを提案する。
GPT(Generative Pretrained Transformer)にインスパイアされた本研究では,その空間における次インデックス予測のために,GPTのようなモデルをトレーニングすることを提案する。
論文 参考訳(メタデータ) (2022-10-19T13:30:39Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - PreTR: Spatio-Temporal Non-Autoregressive Trajectory Prediction
Transformer [0.9786690381850356]
PRediction Transformer (PReTR) と呼ばれるモデルを導入し、時間分解型アテンションモジュールを用いてマルチエージェントシーンから特徴を抽出する。
これは、経験的により良い結果を持つ以前の研究されたモデルよりも計算上の必要性が低いことを示している。
我々は,学習対象クエリの集合を並列デコードするために,エンコーダ・デコーダ・トランスフォーマネットワークを利用する。
論文 参考訳(メタデータ) (2022-03-17T12:52:23Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z) - Forecasting Sequential Data using Consistent Koopman Autoencoders [52.209416711500005]
クープマン理論に関連する新しい物理学に基づく手法が導入された。
本稿では,既存の作業の多くと異なり,前方・後方のダイナミクスを生かした新しいコンシスタント・クープマン・オートエンコーダモデルを提案する。
このアプローチの鍵となるのは、一貫性のある力学と関連するクープマン作用素との相互作用を探索する新しい解析である。
論文 参考訳(メタデータ) (2020-03-04T18:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。