論文の概要: Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding
- arxiv url: http://arxiv.org/abs/2310.12970v1
- Date: Thu, 19 Oct 2023 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:32:00.942231
- Title: Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding
- Title(参考訳): 相対的ポーズ符号化を用いた不均質ポリライントランスによる実時間動き予測
- Authors: Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc
Van Gool
- Abstract要約: 既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
- 参考スコア(独自算出の注目度): 121.08841110022607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-world deployment of an autonomous driving system requires its
components to run on-board and in real-time, including the motion prediction
module that predicts the future trajectories of surrounding traffic
participants. Existing agent-centric methods have demonstrated outstanding
performance on public benchmarks. However, they suffer from high computational
overhead and poor scalability as the number of agents to be predicted
increases. To address this problem, we introduce the K-nearest neighbor
attention with relative pose encoding (KNARPE), a novel attention mechanism
allowing the pairwise-relative representation to be used by Transformers. Then,
based on KNARPE we present the Heterogeneous Polyline Transformer with Relative
pose encoding (HPTR), a hierarchical framework enabling asynchronous token
update during the online inference. By sharing contexts among agents and
reusing the unchanged contexts, our approach is as efficient as scene-centric
methods, while performing on par with state-of-the-art agent-centric methods.
Experiments on Waymo and Argoverse-2 datasets show that HPTR achieves superior
performance among end-to-end methods that do not apply expensive
post-processing or model ensembling. The code is available at
https://github.com/zhejz/HPTR.
- Abstract(参考訳): 自動運転システムの現実的な展開には、周囲の交通参加者の将来の軌道を予測するモーション予測モジュールを含む、そのコンポーネントをオンボードおよびリアルタイムに実行する必要がある。
既存のエージェント中心の手法は、公開ベンチマークで優れた性能を示した。
しかし、予測されるエージェントの数が増えるにつれて、高い計算オーバーヘッドとスケーラビリティに悩まされる。
この問題に対処するために,K-nearest Near attention with relative pose encoding (KNARPE)を導入する。
次に,knarpeに基づいて,オンライン推論中に非同期トークン更新を可能にする階層型フレームワークである相対ポーズ符号化(hptr)を用いたヘテロジニアスポリライントランスを提案する。
エージェント間のコンテキストの共有と変更のないコンテキストの再利用により、このアプローチはシーン中心のメソッドと同じくらい効率的であり、また、最先端のエージェント中心のメソッドと同等の性能を発揮する。
WaymoとArgoverse-2データセットの実験では、HPTRは高価な後処理やモデルアンサンブルを適用しないエンドツーエンドメソッドよりも優れたパフォーマンスを実現している。
コードはhttps://github.com/zhejz/HPTRで公開されている。
関連論文リスト
- PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - SocialFormer: Social Interaction Modeling with Edge-enhanced Heterogeneous Graph Transformers for Trajectory Prediction [3.733790302392792]
SocialFormerはエージェント間相互作用を意識した軌道予測手法である。
本稿では,エージェント動作の時間的社会的挙動をモデル化するために,ゲートリカレント単位(GRU)に基づくテンポラルエンコーダを提案する。
一般的なnuScenesベンチマークの軌道予測タスクとしてSocialFormerを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-05-06T19:47:23Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent
Diffusion Models [10.057312592344507]
本研究では,SceneDMと呼ばれる拡散モデルに基づく新しいフレームワークを提案する。
SceneDMはSim Agents Benchmarkで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-27T11:39:27Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and
Trajectory Prediction [12.84508682310717]
将来の車両軌道予測のためのトランスフォーマーモデルであるLatentFormerを提案する。
提案手法をnuScenesベンチマークデータセット上で評価し,提案手法が最先端性能を実現し,トラジェクトリ指標を最大40%向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T17:44:58Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。