論文の概要: VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation
- arxiv url: http://arxiv.org/abs/2005.04259v1
- Date: Fri, 8 May 2020 19:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:30:15.930430
- Title: VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation
- Title(参考訳): VectorNet: ベクトル表現からHDマップとエージェントダイナミクスをエンコードする
- Authors: Jiyang Gao, Chen Sun, Hang Zhao, Yi Shen, Dragomir Anguelov, Congcong
Li, Cordelia Schmid
- Abstract要約: 本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
- 参考スコア(独自算出の注目度): 74.56282712099274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior prediction in dynamic, multi-agent systems is an important problem
in the context of self-driving cars, due to the complex representations and
interactions of road components, including moving agents (e.g. pedestrians and
vehicles) and road context information (e.g. lanes, traffic lights). This paper
introduces VectorNet, a hierarchical graph neural network that first exploits
the spatial locality of individual road components represented by vectors and
then models the high-order interactions among all components. In contrast to
most recent approaches, which render trajectories of moving agents and road
context information as bird-eye images and encode them with convolutional
neural networks (ConvNets), our approach operates on a vector representation.
By operating on the vectorized high definition (HD) maps and agent
trajectories, we avoid lossy rendering and computationally intensive ConvNet
encoding steps. To further boost VectorNet's capability in learning context
features, we propose a novel auxiliary task to recover the randomly masked out
map entities and agent trajectories based on their context. We evaluate
VectorNet on our in-house behavior prediction benchmark and the recently
released Argoverse forecasting dataset. Our method achieves on par or better
performance than the competitive rendering approach on both benchmarks while
saving over 70% of the model parameters with an order of magnitude reduction in
FLOPs. It also outperforms the state of the art on the Argoverse dataset.
- Abstract(参考訳): 動的なマルチエージェントシステムにおける行動予測は、移動エージェント(歩行者や車両など)や道路状況情報(車線、信号など)を含む道路要素の複雑な表現と相互作用のため、自動運転車の文脈において重要な問題である。
本稿では,まず,ベクトルによって表される個々の道路成分の空間的局所性を活用した階層型グラフニューラルネットワークであるvectornetについて述べる。
移動エージェントの軌跡や道路状況情報を鳥眼画像として表現し,畳み込みニューラルネットワーク(convnets)でエンコードする手法とは対照的に,提案手法はベクトル表現に基づいて動作する。
ベクトル化ハイディフィケーション(hd)マップとエージェントトラジェクタで操作することで、損失のあるレンダリングと計算集約的なconvnetエンコーディングステップを回避する。
文脈特徴の学習におけるVectorNetの能力をさらに向上するために,ランダムにマスキングされたマップエンティティとエージェントトラジェクトリをそのコンテキストに基づいて復元する新しい補助タスクを提案する。
われわれはvectornetを社内行動予測ベンチマークと最近リリースされたargoverse予測データセットで評価している。
本手法は両ベンチマークの競合レンダリング手法と同等かそれ以上の性能を実現し,モデルパラメータの70%以上を節約し,フロップ数を1桁削減した。
また、Argoverseデータセット上でのアートの状態を上回ります。
関連論文リスト
- TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - Video Killed the HD-Map: Predicting Multi-Agent Behavior Directly From
Aerial Images [14.689298253430568]
本稿では,最小限のアノテーションを必要とする航空画像ベースマップ(AIM)の表現を提案し,歩行者や車両などの交通機関に道路状況情報を提供する。
以上の結果から,特にAIM表現を用いた歩行者の競合的マルチエージェント軌道予測性能が示された。
論文 参考訳(メタデータ) (2023-05-19T17:48:01Z) - TSGN: Temporal Scene Graph Neural Networks with Projected Vectorized
Representation for Multi-Agent Motion Prediction [2.5780349894383807]
TSGNは、全てのエージェントに対するマルチモーダルな将来の軌跡を、妥当かつ正確に同時に予測することができる。
エージェントと道路ネットワーク間の相互作用を捉える階層型レーン変換器を提案する。
実験により、TSGNはArgoverse運動予測ベンチマーで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-05-14T15:58:55Z) - GoRela: Go Relative for Viewpoint-Invariant Motion Forecasting [121.42898228997538]
精度や一般化を犠牲にすることなく、全てのエージェントとマップに対して効率的な共有符号化を提案する。
不均一空間グラフにおけるエージェントとマップ要素間の幾何学的関係を表現するために、ペアワイズ相対的な位置符号化を利用する。
我々のデコーダは視点非依存であり、レーングラフ上でエージェント目標を予測し、多様かつコンテキスト対応のマルチモーダル予測を可能にする。
論文 参考訳(メタデータ) (2022-11-04T16:10:50Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - HDGT: Heterogeneous Driving Graph Transformer for Multi-Agent Trajectory
Prediction via Scene Encoding [76.9165845362574]
運転シーンをノードやエッジの異なる異種グラフとしてモデル化するバックボーンを提案する。
空間的関係符号化では、ノードの座標とエッジの座標は局所ノード中心座標系に含まれる。
実験結果から,HDGTは軌道予測のタスクに対して最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-04-30T07:08:30Z) - Trajectory Prediction with Graph-based Dual-scale Context Fusion [43.51107329748957]
本稿では,Dual Scale Predictorというグラフベースの軌道予測ネットワークを提案する。
静的および動的駆動コンテキストを階層的にエンコードする。
提案したデュアルスケールコンテキスト融合ネットワークにより、DSPは正確で人間らしいマルチモーダル軌道を生成することができる。
論文 参考訳(メタデータ) (2021-11-02T13:42:16Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Exploiting latent representation of sparse semantic layers for improved
short-term motion prediction with Capsule Networks [0.12183405753834559]
本稿では,HD(High-Definition)マップの小さな領域に対応するスパースなセマンティクス層の階層的表現を学習する文脈において,Capsule Networks(CapsNets)の利用を検討する。
CapsNetsに基づくアーキテクチャを使用することで、検出された画像内の特徴間の階層的関係を維持すると同時に、プール操作によってしばしば発生する空間データの損失を防ぐことができる。
本モデルでは,ネットワーク全体の規模を大幅に削減しつつ,予測に関する最近の研究よりも大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T11:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。