論文の概要: AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2403.13331v2
- Date: Thu, 21 Mar 2024 04:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 12:40:50.350620
- Title: AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving
- Title(参考訳): AMP: 自律運転のための次のToken予測で再検討された自己回帰運動予測
- Authors: Xiaosong Jia, Shaoshuai Shi, Zijun Chen, Li Jiang, Wenlong Liao, Tao He, Junchi Yan,
- Abstract要約: 本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
- 参考スコア(独自算出の注目度): 59.94343412438211
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As an essential task in autonomous driving (AD), motion prediction aims to predict the future states of surround objects for navigation. One natural solution is to estimate the position of other agents in a step-by-step manner where each predicted time-step is conditioned on both observed time-steps and previously predicted time-steps, i.e., autoregressive prediction. Pioneering works like SocialLSTM and MFP design their decoders based on this intuition. However, almost all state-of-the-art works assume that all predicted time-steps are independent conditioned on observed time-steps, where they use a single linear layer to generate positions of all time-steps simultaneously. They dominate most motion prediction leaderboards due to the simplicity of training MLPs compared to autoregressive networks. In this paper, we introduce the GPT style next token prediction into motion forecasting. In this way, the input and output could be represented in a unified space and thus the autoregressive prediction becomes more feasible. However, different from language data which is composed of homogeneous units -words, the elements in the driving scene could have complex spatial-temporal and semantic relations. To this end, we propose to adopt three factorized attention modules with different neighbors for information aggregation and different position encoding styles to capture their relations, e.g., encoding the transformation between coordinate systems for spatial relativity while adopting RoPE for temporal relativity. Empirically, by equipping with the aforementioned tailored designs, the proposed method achieves state-of-the-art performance in the Waymo Open Motion and Waymo Interaction datasets. Notably, AMP outperforms other recent autoregressive motion prediction methods: MotionLM and StateTransformer, which demonstrates the effectiveness of the proposed designs.
- Abstract(参考訳): 自律走行(AD)における重要な課題として、運動予測は、ナビゲーションのための周囲の物体の将来の状態を予測することを目的としている。
1つの自然な解法は、観測された時間ステップと予測された時間ステップ、すなわち自己回帰予測の両方で予測された各時間ステップが条件付けられたステップバイステップで他のエージェントの位置を推定することである。
パイオニアリングは、SocialLSTMやMFPのように、この直感に基づいてデコーダを設計する。
しかしながら、ほとんどの最先端の研究は、予測されたすべての時間ステップが観測された時間ステップ上で独立に条件付けられており、同時に全ての時間ステップの位置を生成するために単一の線形層を使用すると仮定している。
自動回帰ネットワークと比較して、MPPのトレーニングの単純さから、ほとんどの動き予測リーダーボードを支配している。
本稿では,動き予測にGPTスタイルの次のトークン予測を導入する。
このように、入力と出力は統一された空間で表現することができ、したがって自己回帰予測はより実現可能となる。
しかし、同種単位-ワードからなる言語データとは異なり、駆動シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる隣り合わせの3つの分解型アテンションモジュールを用いて,空間相対性理論のための座標系間の変換を符号化し,時間相対性理論にRoPEを採用することを提案する。
提案手法は,上記の設計を取り入れることで,Waymo Open Motion および Waymo Interaction データセットの最先端性能を実現する。
特に、AMPは、提案した設計の有効性を示すMotionLMとStateTransformerの他の自動回帰動作予測手法よりも優れている。
関連論文リスト
- Motion Forecasting in Continuous Driving [41.6423398623095]
自動運転では、自動運転車が動くと、動きの予測が繰り返し繰り返される。
既存の予測方法は、特定の範囲内で各走行シーンを独立に処理する。
本稿では,連続運転のための新しい動き予測フレームワークであるRealMotionを提案する。
論文 参考訳(メタデータ) (2024-10-08T13:04:57Z) - PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。
我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文 参考訳(メタデータ) (2023-11-14T11:53:24Z) - CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion [6.862357145175449]
本稿では,単一段階の終端拡散型HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな将来のポーズ予測性能が空間予測性能を改善するという洞察から着想を得ている。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作を予測する。
論文 参考訳(メタデータ) (2023-05-21T19:31:56Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z) - Exploring Attention GAN for Vehicle Motion Prediction [2.887073662645855]
身体的・社会的文脈を考慮した動き予測モデルにおける注意の影響について検討した。
本稿では,Argoverse Motion Forecasting Benchmark 1.1 を用いて提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T13:18:32Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Motion Prediction Using Temporal Inception Module [96.76721173517895]
人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
本フレームワークは,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。
論文 参考訳(メタデータ) (2020-10-06T20:26:01Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z) - AMENet: Attentive Maps Encoder Network for Trajectory Prediction [35.22312783822563]
軌道予測は、安全な将来の動きを計画するための応用に不可欠である。
我々は Attentive Maps Network (AMENet) というエンドツーエンド生成モデルを提案する。
AMENetはエージェントの動作と相互作用情報をエンコードし、高精度でリアルなマルチパス軌道予測を行う。
論文 参考訳(メタデータ) (2020-06-15T10:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。