論文の概要: Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding
- arxiv url: http://arxiv.org/abs/2310.12970v1
- Date: Thu, 19 Oct 2023 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:32:00.942231
- Title: Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding
- Title(参考訳): 相対的ポーズ符号化を用いた不均質ポリライントランスによる実時間動き予測
- Authors: Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc
Van Gool
- Abstract要約: 既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
- 参考スコア(独自算出の注目度): 121.08841110022607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-world deployment of an autonomous driving system requires its
components to run on-board and in real-time, including the motion prediction
module that predicts the future trajectories of surrounding traffic
participants. Existing agent-centric methods have demonstrated outstanding
performance on public benchmarks. However, they suffer from high computational
overhead and poor scalability as the number of agents to be predicted
increases. To address this problem, we introduce the K-nearest neighbor
attention with relative pose encoding (KNARPE), a novel attention mechanism
allowing the pairwise-relative representation to be used by Transformers. Then,
based on KNARPE we present the Heterogeneous Polyline Transformer with Relative
pose encoding (HPTR), a hierarchical framework enabling asynchronous token
update during the online inference. By sharing contexts among agents and
reusing the unchanged contexts, our approach is as efficient as scene-centric
methods, while performing on par with state-of-the-art agent-centric methods.
Experiments on Waymo and Argoverse-2 datasets show that HPTR achieves superior
performance among end-to-end methods that do not apply expensive
post-processing or model ensembling. The code is available at
https://github.com/zhejz/HPTR.
- Abstract(参考訳): 自動運転システムの現実的な展開には、周囲の交通参加者の将来の軌道を予測するモーション予測モジュールを含む、そのコンポーネントをオンボードおよびリアルタイムに実行する必要がある。
既存のエージェント中心の手法は、公開ベンチマークで優れた性能を示した。
しかし、予測されるエージェントの数が増えるにつれて、高い計算オーバーヘッドとスケーラビリティに悩まされる。
この問題に対処するために,K-nearest Near attention with relative pose encoding (KNARPE)を導入する。
次に,knarpeに基づいて,オンライン推論中に非同期トークン更新を可能にする階層型フレームワークである相対ポーズ符号化(hptr)を用いたヘテロジニアスポリライントランスを提案する。
エージェント間のコンテキストの共有と変更のないコンテキストの再利用により、このアプローチはシーン中心のメソッドと同じくらい効率的であり、また、最先端のエージェント中心のメソッドと同等の性能を発揮する。
WaymoとArgoverse-2データセットの実験では、HPTRは高価な後処理やモデルアンサンブルを適用しないエンドツーエンドメソッドよりも優れたパフォーマンスを実現している。
コードはhttps://github.com/zhejz/HPTRで公開されている。
関連論文リスト
- SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent
Diffusion Models [10.057312592344507]
本研究では,SceneDMと呼ばれる拡散モデルに基づく新しいフレームワークを提案する。
SceneDMはSim Agents Benchmarkで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-27T11:39:27Z) - MacFormer: Map-Agent Coupled Transformer for Real-time and Robust
Trajectory Prediction [26.231420111336565]
実時間およびロバストな軌道予測のためのMap-Agent Coupled Transformer (MacFormer)を提案する。
本フレームワークは,共用マップと参照抽出器という,慎重に設計された2つのモジュールを通じて,マップ制約をネットワークに明示的に組み込む。
我々はArgoverse 1 と Argoverse 2 と nuScenes の実世界のベンチマークに対するアプローチを評価し、いずれも最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-20T14:27:28Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and
Trajectory Prediction [12.84508682310717]
将来の車両軌道予測のためのトランスフォーマーモデルであるLatentFormerを提案する。
提案手法をnuScenesベンチマークデータセット上で評価し,提案手法が最先端性能を実現し,トラジェクトリ指標を最大40%向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T17:44:58Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Trajformer: Trajectory Prediction with Local Self-Attentive Contexts for
Autonomous Driving [13.861631911491651]
自己意識は、エージェントの社会的文脈を表現するためのより良い制御を可能にする。
Argoverseデータセットの様々なベースラインに対する標準メトリクスの改善を示す。
論文 参考訳(メタデータ) (2020-11-30T15:42:15Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文 参考訳(メタデータ) (2020-05-08T19:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。