論文の概要: PoseGPT: Quantization-based 3D Human Motion Generation and Forecasting
- arxiv url: http://arxiv.org/abs/2210.10542v1
- Date: Wed, 19 Oct 2022 13:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:46:04.898589
- Title: PoseGPT: Quantization-based 3D Human Motion Generation and Forecasting
- Title(参考訳): PoseGPT:量子化に基づく3次元モーション生成と予測
- Authors: Thomas Lucas, Fabien Baradel, Philippe Weinzaepfel, Gr\'egory Rogez
- Abstract要約: 本稿では,人間の動きを量子化された潜伏列に内部的に圧縮する自動回帰変換器のPoseGPTを提案する。
GPT(Generative Pretrained Transformer)にインスパイアされた本研究では,その空間における次インデックス予測のために,GPTのようなモデルをトレーニングすることを提案する。
- 参考スコア(独自算出の注目度): 16.033044724498296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of action-conditioned generation of human motion
sequences. Existing work falls into two categories: forecast models conditioned
on observed past motions, or generative models conditioned on action labels and
duration only. In contrast, we generate motion conditioned on observations of
arbitrary length, including none. To solve this generalized problem, we propose
PoseGPT, an auto-regressive transformer-based approach which internally
compresses human motion into quantized latent sequences. An auto-encoder first
maps human motion to latent index sequences in a discrete space, and
vice-versa. Inspired by the Generative Pretrained Transformer (GPT), we propose
to train a GPT-like model for next-index prediction in that space; this allows
PoseGPT to output distributions on possible futures, with or without
conditioning on past motion. The discrete and compressed nature of the latent
space allows the GPT-like model to focus on long-range signal, as it removes
low-level redundancy in the input signal. Predicting discrete indices also
alleviates the common pitfall of predicting averaged poses, a typical failure
case when regressing continuous values, as the average of discrete targets is
not a target itself. Our experimental results show that our proposed approach
achieves state-of-the-art results on HumanAct12, a standard but small scale
dataset, as well as on BABEL, a recent large scale MoCap dataset, and on GRAB,
a human-object interactions dataset.
- Abstract(参考訳): 動作条件付き人間の動作系列の生成の問題に対処する。
既存の作業は2つのカテゴリに分類される: 観測された過去の動きに基づく予測モデル、またはアクションラベルと持続時間のみを条件とした生成モデル。
対照的に、任意の長さの観測で条件付けられた動きを発生させる。
そこで本研究では,人間の運動を量子化された潜在配列に内部的に圧縮する自己回帰トランスフォーマー手法であるponsgptを提案する。
オートエンコーダは、まず人間の動きを離散空間内の潜在インデックス列にマッピングし、逆行する。
GPT(Generative Pretrained Transformer)にインスピレーションを得て,その空間における次インデックス予測のためのGPTライクなモデルをトレーニングすることを提案する。
遅延空間の離散的で圧縮された性質により、GPTのようなモデルは入力信号の低レベル冗長性を取り除くため、長距離信号に集中することができる。
離散的な指標を予測することで、平均的なポーズを予測する一般的な落とし穴も軽減される。
実験結果から,提案手法は,標準だが小規模のデータセットであるhumanact12と,最近の大規模mocapデータセットであるbabelと,ヒューマン・オブジェクトインタラクションデータセットであるgrabにおいて,最先端の結果を得ることができた。
関連論文リスト
- Multiscale Residual Learning of Graph Convolutional Sequence Chunks for
Human Motion Prediction [23.212848643552395]
時間的および空間的依存関係の学習による人間の動作予測のための新しい手法を提案する。
提案手法は,動作予測のためのシーケンス情報を効果的にモデル化し,他の手法よりも優れ,新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2023-08-31T15:23:33Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion [6.862357145175449]
本稿では,単一段階の終端拡散型HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな将来のポーズ予測性能が空間予測性能を改善するという洞察から着想を得ている。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作を予測する。
論文 参考訳(メタデータ) (2023-05-21T19:31:56Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical
VAE [37.23381308240617]
本稿では,階層型トランスフォーマー動的変分オートエンコーダ(HiT-DVAE)を提案する。
提案手法はHumanEva-IおよびHuman3.6Mにおいて,様々な評価手法を用いて評価し,その大部分において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T15:12:34Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - Motion Prediction Using Temporal Inception Module [96.76721173517895]
人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
本フレームワークは,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。
論文 参考訳(メタデータ) (2020-10-06T20:26:01Z) - Multitask Non-Autoregressive Model for Human Motion Prediction [33.98939145212708]
非auToregressive Model (NAT) は、文脈エンコーダと位置エンコードモジュールと同様に、完全な非自己回帰復号方式で提案される。
提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-13T15:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。