論文の概要: Robust Human Motion Forecasting using Transformer-based Model
- arxiv url: http://arxiv.org/abs/2302.08274v2
- Date: Wed, 19 Apr 2023 16:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 17:10:29.345085
- Title: Robust Human Motion Forecasting using Transformer-based Model
- Title(参考訳): トランスフォーマーモデルを用いたロバストな人間の動き予測
- Authors: Esteve Valls Mascaro, Shuo Ma, Hyemin Ahn, Dongheui Lee
- Abstract要約: 本研究では,リアルタイムな3次元人体動作予測を短時間・長期で処理するTransformerに基づく新しいモデルを提案する。
本モデルでは, 騒音の多い環境下での3次元動作の復元と予測において, 人間の動きが著しく抑制されている状況において, その頑健さを実証する。
我々のモデルは、短期予測におけるST-Transformerの平均2乗誤差を8.89%削減し、400msの入力プレフィックスを持つHumanre3.6Mデータセットの長期予測を2.57%削減した。
- 参考スコア(独自算出の注目度): 10.473449209211319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehending human motion is a fundamental challenge for developing
Human-Robot Collaborative applications. Computer vision researchers have
addressed this field by only focusing on reducing error in predictions, but not
taking into account the requirements to facilitate its implementation in
robots. In this paper, we propose a new model based on Transformer that
simultaneously deals with the real time 3D human motion forecasting in the
short and long term. Our 2-Channel Transformer (2CH-TR) is able to efficiently
exploit the spatio-temporal information of a shortly observed sequence (400ms)
and generates a competitive accuracy against the current state-of-the-art.
2CH-TR stands out for the efficient performance of the Transformer, being
lighter and faster than its competitors. In addition, our model is tested in
conditions where the human motion is severely occluded, demonstrating its
robustness in reconstructing and predicting 3D human motion in a highly noisy
environment. Our experiment results show that the proposed 2CH-TR outperforms
the ST-Transformer, which is another state-of-the-art model based on the
Transformer, in terms of reconstruction and prediction under the same
conditions of input prefix. Our model reduces in 8.89% the mean squared error
of ST-Transformer in short-term prediction, and 2.57% in long-term prediction
in Human3.6M dataset with 400ms input prefix. Visit our website
$\href{https://sites.google.com/view/estevevallsmascaro/publications/iros2022}{here}$.
- Abstract(参考訳): 人間の動きを補完することは、人間-ロボット協調アプリケーションを開発するための根本的な課題である。
コンピュータビジョンの研究者たちは、予測におけるエラーを減らすことだけに焦点を合わせながら、ロボットにおけるその実装を促進するための要件を考慮していない。
本稿では,トランスフォーマーをベースとした,短時間・長期のリアルタイムな3次元動作予測を同時に扱う新しいモデルを提案する。
2-Channel Transformer (2CH-TR) は, 近いうちに観測されたシーケンス(400ms)の時空間情報を効率よく利用し, 現状に対する競合精度を実現できる。
2CH-TRはTransformerの高性能で、競合他社よりも軽量で高速である。
また,高騒音環境下での3次元動作の再現・予測におけるロバスト性を示すために,人間の動作がかなり遮蔽されている条件下で実験を行った。
実験の結果,提案した2CH-TRはST-Transformerよりも優れており,ST-Transformerは入力プレフィックスと同じ条件下での再構築と予測を行う。
このモデルでは、短期予測ではst変換器の平均二乗誤差が8.89%、入力プレフィックスが400msのhuman3.6mデータセットでは2.57%減少する。
当社のWebサイト、$\href{https://sites.google.com/view/estevevallsmascaro/publications/iros2022}{here}$.comを参照してください。
関連論文リスト
- PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners [65.93130697098658]
本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。
PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。
合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Video Prediction by Efficient Transformers [14.685237010856953]
本稿では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
実験により、提案したビデオ予測モデルは、より複雑な最先端の畳み込み-LSTMベースのモデルと競合することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:46:48Z) - STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a
Non-Autoregressive Transformer for Robot Following Ahead [8.227864212055035]
観測された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発した。
本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。
我々のモデルは、最先端の手法に関して、テスト精度と速度の観点からロボット応用に適している。
論文 参考訳(メタデータ) (2022-09-15T20:27:54Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。