論文の概要: A Spatio-temporal Transformer for 3D Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2004.08692v3
- Date: Mon, 29 Nov 2021 15:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:46:34.381421
- Title: A Spatio-temporal Transformer for 3D Human Motion Prediction
- Title(参考訳): 3次元動作予測のための時空間変換器
- Authors: Emre Aksan, Manuel Kaufmann, Peng Cao, Otmar Hilliges
- Abstract要約: 本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
- 参考スコア(独自算出の注目度): 39.31212055504893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel Transformer-based architecture for the task of generative
modelling of 3D human motion. Previous work commonly relies on RNN-based models
considering shorter forecast horizons reaching a stationary and often
implausible state quickly. Recent studies show that implicit temporal
representations in the frequency domain are also effective in making
predictions for a predetermined horizon. Our focus lies on learning
spatio-temporal representations autoregressively and hence generation of
plausible future developments over both short and long term. The proposed model
learns high dimensional embeddings for skeletal joints and how to compose a
temporally coherent pose via a decoupled temporal and spatial self-attention
mechanism. Our dual attention concept allows the model to access current and
past information directly and to capture both the structural and the temporal
dependencies explicitly. We show empirically that this effectively learns the
underlying motion dynamics and reduces error accumulation over time observed in
auto-regressive models. Our model is able to make accurate short-term
predictions and generate plausible motion sequences over long horizons. We make
our code publicly available at https://github.com/eth-ait/motion-transformer.
- Abstract(参考訳): 本研究では,3次元運動生成モデルのための新しいトランスベースアーキテクチャを提案する。
以前の研究は、より短い予測地平線を考慮したrnnベースのモデルによく依存している。
近年の研究では、周波数領域における暗黙の時間表現は、所定の地平線の予測にも有効であることが示されている。
我々の焦点は、時空間的表現を自己回帰的に学習することであり、それゆえ、短期と長期の両方にわたる、もっともらしい将来の発展を生み出すことである。
提案モデルでは, 骨格関節の高次元埋め込みと, 時間的および空間的自己付着機構を介して時間的コヒーレントなポーズを構成する方法が学習される。
当社のデュアルアテンションの概念では、モデルが現在および過去の情報に直接アクセスし、構造的および時間的依存関係を明示的に捉えることができます。
その結果, 自己回帰モデルで観察される時間経過に伴う誤差の蓄積を効果的に学習できることが実証的に示された。
私たちのモデルは、正確な短期予測と、長い地平線上での可能な動き列を生成することができる。
コードをhttps://github.com/eth-ait/motion-transformer.comで公開しています。
関連論文リスト
- Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for
Traffic Flow Prediction [78.05103666987655]
空間時空間グラフニューラルネットワーク(GNN)モデルは、この問題を解決する最も有望な方法の1つである。
本稿では,交通流の正確な予測を行うために,遅延を意識した動的長距離トランスフォーマー(PDFormer)を提案する。
提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文 参考訳(メタデータ) (2023-01-19T08:42:40Z) - Predicting Physics in Mesh-reduced Space with Temporal Attention [15.054026802351146]
本稿では,トランス方式の時間的アテンションモデルを用いて,長期的依存関係をキャプチャする手法を提案する。
本手法は, 複雑な流体力学予測タスクにおいて, 競合するGNNベースラインよりも優れる。
我々のアプローチは、高次元複雑な物理課題の解決に注意に基づくシーケンスモデルの利点をもたらす道を開いたと信じている。
論文 参考訳(メタデータ) (2022-01-22T18:32:54Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Multi-frame sequence generator of 4D human body motion [0.0]
本稿では,翻訳と回転を含むグローバルな移動をエンコードする自動エンコーダに基づく生成フレームワークと,単一遅延空間ベクトルとしての多フレーム時間運動を提案する。
本研究は,低誤差境界内でのヒト形態素の4次元配列の再構成能力について検証した。
また,最初の人間のフレームから将来のフレームの4次元動作予測を行う手法の利点についても述べる。
論文 参考訳(メタデータ) (2021-06-07T13:56:46Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z) - Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory
Prediction [29.602903750712713]
本稿では, 軌跡予測に注意機構のみを応用した, 時空間型graAph tRansフレームワークSTARを提案する。
この結果から,STARは5つの現実世界の歩行者予測データセット上で最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-18T08:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。