論文の概要: MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction
- arxiv url: http://arxiv.org/abs/2111.14973v1
- Date: Mon, 29 Nov 2021 21:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:29:12.834700
- Title: MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction
- Title(参考訳): MultiPath++: 行動予測のための効率的な情報融合と軌道集約
- Authors: Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S.
Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi
Pang Lam, Dragomir Anguelov, Benjamin Sapp
- Abstract要約: MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。
提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 42.563865078323204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the future behavior of road users is one of the most challenging
and important problems in autonomous driving. Applying deep learning to this
problem requires fusing heterogeneous world state in the form of rich
perception signals and map information, and inferring highly multi-modal
distributions over possible futures. In this paper, we present MultiPath++, a
future prediction model that achieves state-of-the-art performance on popular
benchmarks. MultiPath++ improves the MultiPath architecture by revisiting many
design choices. The first key design difference is a departure from dense
image-based encoding of the input world state in favor of a sparse encoding of
heterogeneous scene elements: MultiPath++ consumes compact and efficient
polylines to describe road features, and raw agent state information directly
(e.g., position, velocity, acceleration). We propose a context-aware fusion of
these elements and develop a reusable multi-context gating fusion component.
Second, we reconsider the choice of pre-defined, static anchors, and develop a
way to learn latent anchor embeddings end-to-end in the model. Lastly, we
explore ensembling and output aggregation techniques -- common in other ML
domains -- and find effective variants for our probabilistic multimodal output
representation. We perform an extensive ablation on these design choices, and
show that our proposed model achieves state-of-the-art performance on the
Argoverse Motion Forecasting Competition and the Waymo Open Dataset Motion
Prediction Challenge.
- Abstract(参考訳): 道路利用者の将来行動を予測することは、自動運転において最も困難で重要な問題の一つである。
この問題にディープラーニングを適用するには、豊富な知覚信号と地図情報という形で異種の世界状態を融合し、可能未来にわたる高度にマルチモーダルな分布を推定する必要がある。
本稿では,一般的なベンチマークにおける最先端性能を実現するための予測モデルであるMultiPath++を提案する。
MultiPath++は、多くの設計選択を再考することによって、MultiPathアーキテクチャを改善している。
multipath++は、道路の特徴を記述するためにコンパクトで効率的なポリラインを消費し、生のエージェント状態情報(例えば、位置、速度、加速度など)を直接消費する。
本稿では,これらの要素のコンテキスト対応融合を提案し,再利用可能なマルチコンテキストゲーティング融合コンポーネントを開発する。
次に、事前定義された静的アンカーの選択を再考し、モデルのエンドツーエンドに潜伏するアンカーの埋め込みを学習する方法を開発する。
最後に、他のMLドメインに共通するアンサンブルと出力アグリゲーション技術を検討し、確率的マルチモーダル出力表現に有効な変種を見つける。
我々は,これらの設計選択を徹底的にアブレーションし,提案モデルがargoverse motion forecasting competition と waymo open dataset motion prediction challenge において最先端のパフォーマンスを達成していることを示す。
関連論文リスト
- Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Pishgu: Universal Path Prediction Architecture through Graph Isomorphism
and Attentive Convolution [2.6774008509840996]
本稿では、注意経路予測のための普遍グラフ同型アプローチであるPishguを提案する。
Pishguはグラフ同型ネットワークを利用して、各フレーム内の被写体間の依存性をキャプチャする。
我々は,複数の公用車両(鳥眼ビュー)と歩行者(鳥眼ビューおよび高角ビュー)の経路予測データセットへのアプローチの適用性を評価する。
論文 参考訳(メタデータ) (2022-10-14T18:48:48Z) - Wayformer: Motion Forecasting via Simple & Efficient Attention Networks [16.031530911221534]
本稿では,簡易かつ均一な動き予測のための注目型アーキテクチャであるWayformerを紹介する。
それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。
建設の単純さにもかかわらず、初期の融合はモダリティであるだけでなく、Open MotionDataset (WOMD) とArgoverseのリーダーボードの両方で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:19:04Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - Multi-Modal Hybrid Architecture for Pedestrian Action Prediction [14.032334569498968]
本研究では,歩行者の横断行動を予測するために,環境から取得したさまざまな情報ソースを組み込んだ新しいマルチモーダル予測アルゴリズムを提案する。
既存の2次元歩行者行動ベンチマークと新たに注釈付けされた3次元運転データセットを用いて,提案モデルが歩行者横断予測における最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-16T15:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。