論文の概要: A Spatio-temporal Transformer for 3D Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2004.08692v3
- Date: Mon, 29 Nov 2021 15:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:46:34.381421
- Title: A Spatio-temporal Transformer for 3D Human Motion Prediction
- Title(参考訳): 3次元動作予測のための時空間変換器
- Authors: Emre Aksan, Manuel Kaufmann, Peng Cao, Otmar Hilliges
- Abstract要約: 本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
- 参考スコア(独自算出の注目度): 39.31212055504893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel Transformer-based architecture for the task of generative
modelling of 3D human motion. Previous work commonly relies on RNN-based models
considering shorter forecast horizons reaching a stationary and often
implausible state quickly. Recent studies show that implicit temporal
representations in the frequency domain are also effective in making
predictions for a predetermined horizon. Our focus lies on learning
spatio-temporal representations autoregressively and hence generation of
plausible future developments over both short and long term. The proposed model
learns high dimensional embeddings for skeletal joints and how to compose a
temporally coherent pose via a decoupled temporal and spatial self-attention
mechanism. Our dual attention concept allows the model to access current and
past information directly and to capture both the structural and the temporal
dependencies explicitly. We show empirically that this effectively learns the
underlying motion dynamics and reduces error accumulation over time observed in
auto-regressive models. Our model is able to make accurate short-term
predictions and generate plausible motion sequences over long horizons. We make
our code publicly available at https://github.com/eth-ait/motion-transformer.
- Abstract(参考訳): 本研究では,3次元運動生成モデルのための新しいトランスベースアーキテクチャを提案する。
以前の研究は、より短い予測地平線を考慮したrnnベースのモデルによく依存している。
近年の研究では、周波数領域における暗黙の時間表現は、所定の地平線の予測にも有効であることが示されている。
我々の焦点は、時空間的表現を自己回帰的に学習することであり、それゆえ、短期と長期の両方にわたる、もっともらしい将来の発展を生み出すことである。
提案モデルでは, 骨格関節の高次元埋め込みと, 時間的および空間的自己付着機構を介して時間的コヒーレントなポーズを構成する方法が学習される。
当社のデュアルアテンションの概念では、モデルが現在および過去の情報に直接アクセスし、構造的および時間的依存関係を明示的に捉えることができます。
その結果, 自己回帰モデルで観察される時間経過に伴う誤差の蓄積を効果的に学習できることが実証的に示された。
私たちのモデルは、正確な短期予測と、長い地平線上での可能な動き列を生成することができる。
コードをhttps://github.com/eth-ait/motion-transformer.comで公開しています。
関連論文リスト
- A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Equivariant Graph Neural Operator for Modeling 3D Dynamics [148.98826858078556]
我々は,次のステップの予測ではなく,ダイナミックスを直接トラジェクトリとしてモデル化するために,Equivariant Graph Neural Operator (EGNO)を提案する。
EGNOは3次元力学の時間的進化を明示的に学習し、時間とともに関数として力学を定式化し、それを近似するためにニューラル演算子を学習する。
粒子シミュレーション、人間のモーションキャプチャー、分子動力学を含む複数の領域における総合的な実験は、既存の手法と比較して、EGNOの極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-19T21:50:32Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Multi-frame sequence generator of 4D human body motion [0.0]
本稿では,翻訳と回転を含むグローバルな移動をエンコードする自動エンコーダに基づく生成フレームワークと,単一遅延空間ベクトルとしての多フレーム時間運動を提案する。
本研究は,低誤差境界内でのヒト形態素の4次元配列の再構成能力について検証した。
また,最初の人間のフレームから将来のフレームの4次元動作予測を行う手法の利点についても述べる。
論文 参考訳(メタデータ) (2021-06-07T13:56:46Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory
Prediction [29.602903750712713]
本稿では, 軌跡予測に注意機構のみを応用した, 時空間型graAph tRansフレームワークSTARを提案する。
この結果から,STARは5つの現実世界の歩行者予測データセット上で最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-18T08:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。