Fugu-MT 論文翻訳(概要): MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction

論文の概要: MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction

arxiv url: http://arxiv.org/abs/2111.14973v1
Date: Mon, 29 Nov 2021 21:36:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 13:29:12.834700
Title: MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction
Title（参考訳）: MultiPath++: 行動予測のための効率的な情報融合と軌道集約
Authors: Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp
Abstract要約: MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
参考スコア（独自算出の注目度）: 42.563865078323204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting the future behavior of road users is one of the most challenging and important problems in autonomous driving. Applying deep learning to this problem requires fusing heterogeneous world state in the form of rich perception signals and map information, and inferring highly multi-modal distributions over possible futures. In this paper, we present MultiPath++, a future prediction model that achieves state-of-the-art performance on popular benchmarks. MultiPath++ improves the MultiPath architecture by revisiting many design choices. The first key design difference is a departure from dense image-based encoding of the input world state in favor of a sparse encoding of heterogeneous scene elements: MultiPath++ consumes compact and efficient polylines to describe road features, and raw agent state information directly (e.g., position, velocity, acceleration). We propose a context-aware fusion of these elements and develop a reusable multi-context gating fusion component. Second, we reconsider the choice of pre-defined, static anchors, and develop a way to learn latent anchor embeddings end-to-end in the model. Lastly, we explore ensembling and output aggregation techniques -- common in other ML domains -- and find effective variants for our probabilistic multimodal output representation. We perform an extensive ablation on these design choices, and show that our proposed model achieves state-of-the-art performance on the Argoverse Motion Forecasting Competition and the Waymo Open Dataset Motion Prediction Challenge.
Abstract（参考訳）: 道路利用者の将来行動を予測することは、自動運転において最も困難で重要な問題の一つである。この問題にディープラーニングを適用するには、豊富な知覚信号と地図情報という形で異種の世界状態を融合し、可能未来にわたる高度にマルチモーダルな分布を推定する必要がある。本稿では,一般的なベンチマークにおける最先端性能を実現するための予測モデルであるMultiPath++を提案する。 MultiPath++は、多くの設計選択を再考することによって、MultiPathアーキテクチャを改善している。 multipath++は、道路の特徴を記述するためにコンパクトで効率的なポリラインを消費し、生のエージェント状態情報(例えば、位置、速度、加速度など)を直接消費する。本稿では,これらの要素のコンテキスト対応融合を提案し,再利用可能なマルチコンテキストゲーティング融合コンポーネントを開発する。次に、事前定義された静的アンカーの選択を再考し、モデルのエンドツーエンドに潜伏するアンカーの埋め込みを学習する方法を開発する。最後に、他のMLドメインに共通するアンサンブルと出力アグリゲーション技術を検討し、確率的マルチモーダル出力表現に有効な変種を見つける。我々は,これらの設計選択を徹底的にアブレーションし,提案モデルがargoverse motion forecasting competition と waymo open dataset motion prediction challenge において最先端のパフォーマンスを達成していることを示す。

関連論文リスト

Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers [11.075247758198762]
本稿では,統合的かつ効率的な視覚シーケンス変換器アーキテクチャを用いたマルチモーダルな将来の意味予測手法であるFUTURISTを紹介する。計算複雑性を低減し,トレーニングパイプラインを合理化し,高解像度なマルチモーダル入力によるエンドツーエンドのトレーニングを可能にする,VAEフリー階層型トークン化プロセスを提案する。我々は,Cityscapesデータセット上でFUTURISTを検証し,短期予測と中期予測の両方において将来的なセマンティックセグメンテーションにおける最先端性能を示す。
論文参考訳（メタデータ） (2025-01-14T18:34:14Z)
Enhancing Lane Segment Perception and Topology Reasoning with Crowdsourcing Trajectory Priors [12.333249510969289]
本研究は, 軌道先行の新たな視点から, 先行オーディメンテーションを考察する。我々は、融合プロセス中にアライメントを考慮に入れた信頼に基づく融合モジュールを設計する。その結果,本手法の性能は現在の最先端手法よりも著しく優れていたことが示唆された。
論文参考訳（メタデータ） (2024-11-26T07:05:05Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか? 自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文参考訳（メタデータ） (2023-12-05T18:34:12Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
Pishgu: Universal Path Prediction Architecture through Graph Isomorphism and Attentive Convolution [2.6774008509840996]
本稿では、注意経路予測のための普遍グラフ同型アプローチであるPishguを提案する。 Pishguはグラフ同型ネットワークを利用して、各フレーム内の被写体間の依存性をキャプチャする。我々は,複数の公用車両(鳥眼ビュー)と歩行者(鳥眼ビューおよび高角ビュー)の経路予測データセットへのアプローチの適用性を評価する。
論文参考訳（メタデータ） (2022-10-14T18:48:48Z)
Wayformer: Motion Forecasting via Simple & Efficient Attention Networks [16.031530911221534]
本稿では,簡易かつ均一な動き予測のための注目型アーキテクチャであるWayformerを紹介する。それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。建設の単純さにもかかわらず、初期の融合はモダリティであるだけでなく、Open MotionDataset (WOMD) とArgoverseのリーダーボードの両方で最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-07-12T21:19:04Z)
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。 MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文参考訳（メタデータ） (2022-05-04T23:40:04Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文参考訳（メタデータ） (2021-04-16T17:58:56Z)
Multi-Modal Hybrid Architecture for Pedestrian Action Prediction [14.032334569498968]
本研究では,歩行者の横断行動を予測するために,環境から取得したさまざまな情報ソースを組み込んだ新しいマルチモーダル予測アルゴリズムを提案する。既存の2次元歩行者行動ベンチマークと新たに注釈付けされた3次元運転データセットを用いて,提案モデルが歩行者横断予測における最先端性能を達成することを示す。
論文参考訳（メタデータ） (2020-11-16T15:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。