論文の概要: STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a
Non-Autoregressive Transformer for Robot Following Ahead
- arxiv url: http://arxiv.org/abs/2209.07600v1
- Date: Thu, 15 Sep 2022 20:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:35:09.791873
- Title: STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a
Non-Autoregressive Transformer for Robot Following Ahead
- Title(参考訳): STPOTR:非自己回帰変換器を用いた頭部追従ロボットの同時追従と姿勢予測
- Authors: Mohammad Mahdavian, Payam Nikdel, Mahdi TaherAhmadi and Mo Chen
- Abstract要約: 観測された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発した。
本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。
我々のモデルは、最先端の手法に関して、テスト精度と速度の観点からロボット応用に適している。
- 参考スコア(独自算出の注目度): 8.227864212055035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we develop a neural network model to predict future human
motion from an observed human motion history. We propose a non-autoregressive
transformer architecture to leverage its parallel nature for easier training
and fast, accurate predictions at test time. The proposed architecture divides
human motion prediction into two parts: 1) the human trajectory, which is the
hip joint 3D position over time and 2) the human pose which is the all other
joints 3D positions over time with respect to a fixed hip joint. We propose to
make the two predictions simultaneously, as the shared representation can
improve the model performance. Therefore, the model consists of two sets of
encoders and decoders. First, a multi-head attention module applied to encoder
outputs improves human trajectory. Second, another multi-head self-attention
module applied to encoder outputs concatenated with decoder outputs facilitates
learning of temporal dependencies. Our model is well-suited for robotic
applications in terms of test accuracy and speed, and compares favorably with
respect to state-of-the-art methods. We demonstrate the real-world
applicability of our work via the Robot Follow-Ahead task, a challenging yet
practical case study for our proposed model.
- Abstract(参考訳): 本稿では,観察された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発する。
本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。
提案手法は人間の運動予測を2つの部分に分割する。
1) 時間の経過とともに股関節3次元位置となるヒトの軌跡
2)固定された股関節に対する他の関節3D位置である人間のポーズ。
共有表現がモデル性能を向上できるため,2つの予測を同時に行うことを提案する。
したがって、モデルは2つのエンコーダとデコーダから構成される。
まず、エンコーダ出力に適用されたマルチヘッドアテンションモジュールは、人間の軌道を改善する。
第二に、デコーダ出力と連結されたエンコーダ出力に適用される別のマルチヘッド自己アテンションモジュールは、時間依存の学習を容易にする。
我々のモデルは、テスト精度と速度の観点からロボット応用に適しており、最先端の手法と比較して好適である。
提案するモデルに対する挑戦的かつ実用的なケーススタディであるロボットのフォロー・アヘッドタスクを通じて,実世界への適用性を示す。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Robust Human Motion Forecasting using Transformer-based Model [14.088942546585068]
本研究では,リアルタイムな3次元人体動作予測を短時間・長期で処理するTransformerに基づく新しいモデルを提案する。
本モデルでは, 騒音の多い環境下での3次元動作の復元と予測において, 人間の動きが著しく抑制されている状況において, その頑健さを実証する。
我々のモデルは,400msの入力プレフィックスを持つHumanre3.6Mデータセットにおいて,短期予測におけるST-Transformerの平均2乗誤差を8.89%,長期予測で2.57%削減する。
論文 参考訳(メタデータ) (2023-02-16T13:06:39Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - Multi-Person 3D Motion Prediction with Multi-Range Transformers [16.62864429495888]
本稿では,個人動作のためのローカルレンジエンコーダと,ソーシャルインタラクションのためのグローバルレンジエンコーダを含むマルチランジトランスフォーマーモデルを提案する。
我々のモデルは、長期3次元動作予測における最先端の手法に勝るだけでなく、多様な社会的相互作用も生み出す。
論文 参考訳(メタデータ) (2021-11-23T18:41:13Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Motion Prediction Using Temporal Inception Module [96.76721173517895]
人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
本フレームワークは,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。
論文 参考訳(メタデータ) (2020-10-06T20:26:01Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。