論文の概要: Wayformer: Motion Forecasting via Simple & Efficient Attention Networks
- arxiv url: http://arxiv.org/abs/2207.05844v1
- Date: Tue, 12 Jul 2022 21:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:10:18.013538
- Title: Wayformer: Motion Forecasting via Simple & Efficient Attention Networks
- Title(参考訳): Wayformer: シンプルで効率的な注意ネットワークによる動き予測
- Authors: Nigamaa Nayakanti, Rami Al-Rfou, Aurick Zhou, Kratarth Goel, Khaled S.
Refaat, Benjamin Sapp
- Abstract要約: 本稿では,簡易かつ均一な動き予測のための注目型アーキテクチャであるWayformerを紹介する。
それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。
建設の単純さにもかかわらず、初期の融合はモダリティであるだけでなく、Open MotionDataset (WOMD) とArgoverseのリーダーボードの両方で最先端の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 16.031530911221534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion forecasting for autonomous driving is a challenging task because
complex driving scenarios result in a heterogeneous mix of static and dynamic
inputs. It is an open problem how best to represent and fuse information about
road geometry, lane connectivity, time-varying traffic light state, and history
of a dynamic set of agents and their interactions into an effective encoding.
To model this diverse set of input features, many approaches proposed to design
an equally complex system with a diverse set of modality specific modules. This
results in systems that are difficult to scale, extend, or tune in rigorous
ways to trade off quality and efficiency. In this paper, we present Wayformer,
a family of attention based architectures for motion forecasting that are
simple and homogeneous. Wayformer offers a compact model description consisting
of an attention based scene encoder and a decoder. In the scene encoder we
study the choice of early, late and hierarchical fusion of the input
modalities. For each fusion type we explore strategies to tradeoff efficiency
and quality via factorized attention or latent query attention. We show that
early fusion, despite its simplicity of construction, is not only modality
agnostic but also achieves state-of-the-art results on both Waymo Open
MotionDataset (WOMD) and Argoverse leaderboards, demonstrating the
effectiveness of our design philosophy
- Abstract(参考訳): 複雑な運転シナリオが静的および動的入力の不均一な混合をもたらすため、自律運転の動作予測は難しい課題である。
道路形状、車線接続、時間変化のある交通信号状態、動的エージェントの集合とその相互作用の履歴などの情報を効果的に符号化する上で、どのように表現し、融合するかは、オープンな問題である。
この多様な入力特徴セットをモデル化するために、様々なモジュラリティ固有のモジュールからなる等しく複雑なシステムを設計するための多くのアプローチが提案された。
この結果、スケール、拡張、チューニングが困難なシステムが、品質と効率をトレードオフする厳密な方法で実現されるのです。
本稿では,シンプルで均質な動き予測のための注意に基づくアーキテクチャであるwayformerを提案する。
wayformerは注意に基づくシーンエンコーダとデコーダからなるコンパクトなモデル記述を提供する。
シーンエンコーダでは,入力モードの早期,後期,階層的な融合の選択について検討する。
それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。
建設の単純さにもかかわらず、初期の融合はモダリティに依存しないだけでなく、Waymo Open MotionDataset(WOMD)とArgoverseのリーダーボードで最先端の成果を達成し、設計哲学の有効性を実証している。
関連論文リスト
- Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - ProphNet: Efficient Agent-Centric Motion Forecasting with
Anchor-Informed Proposals [6.927103549481412]
モーション予測は自動運転システムにおいて重要なモジュールである。
マルチソース入力の不均一性、エージェント動作のマルチモーダリティ、オンボードデプロイメントに必要な低レイテンシのため、このタスクは極めて難しい。
本稿では,効率的なマルチモーダル動作予測のためのアンカー情報を用いたエージェント中心モデルを提案する。
論文 参考訳(メタデータ) (2023-03-21T17:58:28Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Domain Knowledge Driven Pseudo Labels for Interpretable Goal-Conditioned
Interactive Trajectory Prediction [29.701029725302586]
目標条件付きフレームワークを用いた共同軌道予測問題について検討する。
本研究では,条件付き変分自動エンコーダ(CVAE)モデルを導入し,異なる相互作用モードを潜在空間に明示的にエンコードする。
KLの消滅を回避する新しい手法を提案し、擬似ラベルを用いた解釈可能な対話型潜在空間を誘導する。
論文 参考訳(メタデータ) (2022-03-28T21:41:21Z) - MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction [42.563865078323204]
MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。
提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T21:36:53Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。