論文の概要: SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2303.06277v1
- Date: Sat, 11 Mar 2023 01:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:54:30.538786
- Title: SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction
- Title(参考訳): spotr:人間の運動予測のための時空間ポーズトランスフォーマー
- Authors: Avinash Ajit Nargund and Misha Sra
- Abstract要約: 3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
- 参考スコア(独自算出の注目度): 12.248428883804763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D human motion prediction is a research area of high significance and a
challenge in computer vision. It is useful for the design of many applications
including robotics and autonomous driving. Traditionally, autogregressive
models have been used to predict human motion. However, these models have high
computation needs and error accumulation that make it difficult to use them for
realtime applications. In this paper, we present a non-autogressive model for
human motion prediction. We focus on learning spatio-temporal representations
non-autoregressively for generation of plausible future motions. We propose a
novel architecture that leverages the recently proposed Transformers. Human
motion involves complex spatio-temporal dynamics with joints affecting the
position and rotation of each other even though they are not connected
directly. The proposed model extracts these dynamics using both convolutions
and the self-attention mechanism. Using specialized spatial and temporal
self-attention to augment the features extracted through convolution allows our
model to generate spatio-temporally coherent predictions in parallel
independent of the activity. Our contributions are threefold: (i) we frame
human motion prediction as a sequence-to-sequence problem and propose a
non-autoregressive Transformer to forecast a sequence of poses in parallel;
(ii) our method is activity agnostic; (iii) we show that despite its
simplicity, our approach is able to make accurate predictions, achieving better
or comparable results compared to the state-of-the-art on two public datasets,
with far fewer parameters and much faster inference.
- Abstract(参考訳): 人間の3D動作予測はコンピュータビジョンにおける高い重要性と課題の研究領域である。
これはロボット工学や自動運転を含む多くのアプリケーションの設計に有用である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
しかし、これらのモデルには高い計算要求とエラー蓄積があり、リアルタイムアプリケーションでは使用が困難である。
本稿では,人間の運動予測のための非自律モデルを提案する。
我々は,未来的運動の生成のために非回帰的に時空間表現を学習することに集中する。
本稿では,最近提案されたトランスフォーマーを利用した新しいアーキテクチャを提案する。
人間の動きは複雑な時空間的ダイナミクスを伴い、関節は直接接続されていなくても互いの位置と回転に影響を与える。
提案モデルは畳み込みと自己着脱機構の両方を用いてこれらのダイナミクスを抽出する。
コンボリューションによって抽出された特徴を増強するために、特殊空間的・時間的自己アテンションを用いることで、我々のモデルは活動と平行して時空間的コヒーレントな予測を生成できる。
私たちの貢献は3倍です
一 人間の動作予測をシーケンス・ツー・シーケンス問題とみなし、ポーズの列を並列に予測する非自己回帰変換器を提案する。
(ii)この方法は活動非依存である。
3) 単純さにもかかわらず,我々のアプローチでは,パラメータがはるかに少なく,推論がはるかに高速な2つの公開データセットにおいて,最先端あるいは同等の結果が得られることを示す。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - AdvMT: Adversarial Motion Transformer for Long-term Human Motion
Prediction [2.837740438355204]
本稿では,AdvMT(Adversarial Motion Transformer)について述べる。
逆行訓練では,予測の不要な成果物を効果的に削減し,より現実的で流動的な人間の動作の学習を確実にする。
論文 参考訳(メタデータ) (2024-01-10T09:15:50Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a
Non-Autoregressive Transformer for Robot Following Ahead [8.227864212055035]
観測された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発した。
本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。
我々のモデルは、最先端の手法に関して、テスト精度と速度の観点からロボット応用に適している。
論文 参考訳(メタデータ) (2022-09-15T20:27:54Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。