論文の概要: Wayformer: Motion Forecasting via Simple & Efficient Attention Networks
- arxiv url: http://arxiv.org/abs/2207.05844v1
- Date: Tue, 12 Jul 2022 21:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:10:18.013538
- Title: Wayformer: Motion Forecasting via Simple & Efficient Attention Networks
- Title(参考訳): Wayformer: シンプルで効率的な注意ネットワークによる動き予測
- Authors: Nigamaa Nayakanti, Rami Al-Rfou, Aurick Zhou, Kratarth Goel, Khaled S.
Refaat, Benjamin Sapp
- Abstract要約: 本稿では,簡易かつ均一な動き予測のための注目型アーキテクチャであるWayformerを紹介する。
それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。
建設の単純さにもかかわらず、初期の融合はモダリティであるだけでなく、Open MotionDataset (WOMD) とArgoverseのリーダーボードの両方で最先端の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 16.031530911221534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion forecasting for autonomous driving is a challenging task because
complex driving scenarios result in a heterogeneous mix of static and dynamic
inputs. It is an open problem how best to represent and fuse information about
road geometry, lane connectivity, time-varying traffic light state, and history
of a dynamic set of agents and their interactions into an effective encoding.
To model this diverse set of input features, many approaches proposed to design
an equally complex system with a diverse set of modality specific modules. This
results in systems that are difficult to scale, extend, or tune in rigorous
ways to trade off quality and efficiency. In this paper, we present Wayformer,
a family of attention based architectures for motion forecasting that are
simple and homogeneous. Wayformer offers a compact model description consisting
of an attention based scene encoder and a decoder. In the scene encoder we
study the choice of early, late and hierarchical fusion of the input
modalities. For each fusion type we explore strategies to tradeoff efficiency
and quality via factorized attention or latent query attention. We show that
early fusion, despite its simplicity of construction, is not only modality
agnostic but also achieves state-of-the-art results on both Waymo Open
MotionDataset (WOMD) and Argoverse leaderboards, demonstrating the
effectiveness of our design philosophy
- Abstract(参考訳): 複雑な運転シナリオが静的および動的入力の不均一な混合をもたらすため、自律運転の動作予測は難しい課題である。
道路形状、車線接続、時間変化のある交通信号状態、動的エージェントの集合とその相互作用の履歴などの情報を効果的に符号化する上で、どのように表現し、融合するかは、オープンな問題である。
この多様な入力特徴セットをモデル化するために、様々なモジュラリティ固有のモジュールからなる等しく複雑なシステムを設計するための多くのアプローチが提案された。
この結果、スケール、拡張、チューニングが困難なシステムが、品質と効率をトレードオフする厳密な方法で実現されるのです。
本稿では,シンプルで均質な動き予測のための注意に基づくアーキテクチャであるwayformerを提案する。
wayformerは注意に基づくシーンエンコーダとデコーダからなるコンパクトなモデル記述を提供する。
シーンエンコーダでは,入力モードの早期,後期,階層的な融合の選択について検討する。
それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。
建設の単純さにもかかわらず、初期の融合はモダリティに依存しないだけでなく、Waymo Open MotionDataset(WOMD)とArgoverseのリーダーボードで最先端の成果を達成し、設計哲学の有効性を実証している。
関連論文リスト
- DeMo: Decoupling Motion Forecasting into Directional Intentions and Dynamic States [6.856351850183536]
マルチモーダルなトラジェクトリクエリを2つのタイプに分離するフレームワークであるDeMoを紹介する。
この形式を利用することで、軌道の多モード性と動的進化特性を別々に最適化する。
さらに,グローバルな情報集約と状態シーケンスモデリングのためのアテンションとマンバの併用手法についても紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:27:49Z) - EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。
従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。
エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文 参考訳(メタデータ) (2024-08-16T07:12:47Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - ProphNet: Efficient Agent-Centric Motion Forecasting with
Anchor-Informed Proposals [6.927103549481412]
モーション予測は自動運転システムにおいて重要なモジュールである。
マルチソース入力の不均一性、エージェント動作のマルチモーダリティ、オンボードデプロイメントに必要な低レイテンシのため、このタスクは極めて難しい。
本稿では,効率的なマルチモーダル動作予測のためのアンカー情報を用いたエージェント中心モデルを提案する。
論文 参考訳(メタデータ) (2023-03-21T17:58:28Z) - MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction [42.563865078323204]
MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。
提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T21:36:53Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。