Fugu-MT 論文翻訳(概要): Wayformer: Motion Forecasting via Simple & Efficient Attention Networks

論文の概要: Wayformer: Motion Forecasting via Simple & Efficient Attention Networks

arxiv url: http://arxiv.org/abs/2207.05844v1
Date: Tue, 12 Jul 2022 21:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-14 15:10:18.013538
Title: Wayformer: Motion Forecasting via Simple & Efficient Attention Networks
Title（参考訳）: Wayformer: シンプルで効率的な注意ネットワークによる動き予測
Authors: Nigamaa Nayakanti, Rami Al-Rfou, Aurick Zhou, Kratarth Goel, Khaled S. Refaat, Benjamin Sapp
Abstract要約: 本稿では,簡易かつ均一な動き予測のための注目型アーキテクチャであるWayformerを紹介する。それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。建設の単純さにもかかわらず、初期の融合はモダリティであるだけでなく、Open MotionDataset (WOMD) とArgoverseのリーダーボードの両方で最先端の結果が得られることを示す。
参考スコア（独自算出の注目度）: 16.031530911221534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motion forecasting for autonomous driving is a challenging task because complex driving scenarios result in a heterogeneous mix of static and dynamic inputs. It is an open problem how best to represent and fuse information about road geometry, lane connectivity, time-varying traffic light state, and history of a dynamic set of agents and their interactions into an effective encoding. To model this diverse set of input features, many approaches proposed to design an equally complex system with a diverse set of modality specific modules. This results in systems that are difficult to scale, extend, or tune in rigorous ways to trade off quality and efficiency. In this paper, we present Wayformer, a family of attention based architectures for motion forecasting that are simple and homogeneous. Wayformer offers a compact model description consisting of an attention based scene encoder and a decoder. In the scene encoder we study the choice of early, late and hierarchical fusion of the input modalities. For each fusion type we explore strategies to tradeoff efficiency and quality via factorized attention or latent query attention. We show that early fusion, despite its simplicity of construction, is not only modality agnostic but also achieves state-of-the-art results on both Waymo Open MotionDataset (WOMD) and Argoverse leaderboards, demonstrating the effectiveness of our design philosophy
Abstract（参考訳）: 複雑な運転シナリオが静的および動的入力の不均一な混合をもたらすため、自律運転の動作予測は難しい課題である。道路形状、車線接続、時間変化のある交通信号状態、動的エージェントの集合とその相互作用の履歴などの情報を効果的に符号化する上で、どのように表現し、融合するかは、オープンな問題である。この多様な入力特徴セットをモデル化するために、様々なモジュラリティ固有のモジュールからなる等しく複雑なシステムを設計するための多くのアプローチが提案された。この結果、スケール、拡張、チューニングが困難なシステムが、品質と効率をトレードオフする厳密な方法で実現されるのです。本稿では,シンプルで均質な動き予測のための注意に基づくアーキテクチャであるwayformerを提案する。 wayformerは注意に基づくシーンエンコーダとデコーダからなるコンパクトなモデル記述を提供する。シーンエンコーダでは,入力モードの早期,後期,階層的な融合の選択について検討する。それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。建設の単純さにもかかわらず、初期の融合はモダリティに依存しないだけでなく、Waymo Open MotionDataset(WOMD)とArgoverseのリーダーボードで最先端の成果を達成し、設計哲学の有効性を実証している。

関連論文リスト

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
Research on Driving Scenario Technology Based on Multimodal Large Lauguage Model Optimization [1.0485739694839669]
本稿では,運転シナリオにおけるマルチモーダルモデルを最適化するための包括的手法を提案する。このメソッドは動的プロンプト最適化、データセットの構築、モデルトレーニング、デプロイメントといった重要な側面をカバーする。モデルトレーニングでは、知識蒸留、動的微調整、量子化といった高度な技術が統合され、性能を高めながら記憶と計算コストを削減できる。
論文参考訳（メタデータ） (2025-05-28T02:22:11Z)
Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文参考訳（メタデータ） (2025-05-05T02:31:11Z)
An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
DeMo: Decoupling Motion Forecasting into Directional Intentions and Dynamic States [6.856351850183536]
マルチモーダルなトラジェクトリクエリを2つのタイプに分離するフレームワークであるDeMoを紹介する。この形式を利用することで、軌道の多モード性と動的進化特性を別々に最適化する。さらに,グローバルな情報集約と状態シーケンスモデリングのためのアテンションとマンバの併用手法についても紹介する。
論文参考訳（メタデータ） (2024-10-08T12:27:49Z)
EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文参考訳（メタデータ） (2024-08-16T07:12:47Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals [6.927103549481412]
モーション予測は自動運転システムにおいて重要なモジュールである。マルチソース入力の不均一性、エージェント動作のマルチモーダリティ、オンボードデプロイメントに必要な低レイテンシのため、このタスクは極めて難しい。本稿では,効率的なマルチモーダル動作予測のためのアンカー情報を用いたエージェント中心モデルを提案する。
論文参考訳（メタデータ） (2023-03-21T17:58:28Z)
MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction [42.563865078323204]
MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
論文参考訳（メタデータ） (2021-11-29T21:36:53Z)
Decoder Fusion RNN: Context and Interaction Aware Decoders for Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。 Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文参考訳（メタデータ） (2021-08-12T15:53:37Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
Multi-intersection Traffic Optimisation: A Benchmark Dataset and a Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文参考訳（メタデータ） (2021-01-24T03:55:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。