論文の概要: STrajNet: Occupancy Flow Prediction via Multi-modal Swin Transformer
- arxiv url: http://arxiv.org/abs/2208.00394v1
- Date: Sun, 31 Jul 2022 08:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:53:27.692234
- Title: STrajNet: Occupancy Flow Prediction via Multi-modal Swin Transformer
- Title(参考訳): STrajNet:マルチモーダルスウィン変換器による実行フロー予測
- Authors: Haochen Liu, Zhiyu Huang, Chen Lv
- Abstract要約: 本研究は,効率的なシーン占有とフロー予測のためのマルチモーダルSwinトランスフォーマーベースのフレームワークSTrajNetを提案する。
我々は,Swin Transformerを用いて画像とインタラクションを意識した動作表現を符号化し,グリッドセルに動き認識を注入するクロスアテンションモジュールを提案する。
フローと占有率の予測は、時間的共有ピラミッドデコーダによってデコードされる。
- 参考スコア(独自算出の注目度): 7.755385141347842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making an accurate prediction of occupancy and flow is essential to enable
better safety and interaction for autonomous vehicles under complex traffic
scenarios. This work proposes STrajNet: a multi-modal Swin Transformerbased
framework for effective scene occupancy and flow predictions. We employ Swin
Transformer to encode the image and interaction-aware motion representations
and propose a cross-attention module to inject motion awareness into grid cells
across different time steps. Flow and occupancy predictions are then decoded
through temporalsharing Pyramid decoders. The proposed method shows competitive
prediction accuracy and other evaluation metrics in the Waymo Open Dataset
benchmark.
- Abstract(参考訳): 複雑な交通シナリオ下での自動運転車の安全性とインタラクションを改善するためには、正確な占有率とフローの予測が不可欠である。
本研究は,効率的なシーン占有とフロー予測のためのマルチモーダルスウィントランスフォーマーベースのフレームワークSTrajNetを提案する。
我々は,Swin Transformerを用いて画像とインタラクションを意識した動作表現を符号化し,異なる時間ステップで動作認識をグリッドセルに注入するクロスアテンションモジュールを提案する。
フローと占有予測は時間共有ピラミッドデコーダを通じてデコードされる。
提案手法は,Waymo Open Datasetベンチマークにおいて,競合予測精度および他の評価指標を示す。
関連論文リスト
- AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and
Guided Intention Querying [110.83590008788745]
自律運転システムにとって、複雑な運転シナリオを理解し、情報的な決定を下すためには、動きの予測が不可欠である。
本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。
最初のMTRフレームワークは、学習可能な意図クエリを備えたトランスフォーマーエンコーダ-デコーダ構造を利用する。
複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-30T16:23:04Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z) - VectorFlow: Combining Images and Vectors for Traffic Occupancy and Flow
Prediction [18.277777620073685]
本稿では, 正確な占有率と流量予測を実現するために, 新規な占有流量予測器を提案する。
我々のモデルは,オープンデータセットの占有率とフロー予測チャレンジで3位にランクされ,閉鎖された占有率とフロー予測タスクにおいて最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-09T03:49:04Z) - Multimodal Motion Prediction with Stacked Transformers [35.9674180611893]
我々はmmTransformerと呼ばれるマルチモーダル動作予測のための新しいトランスフォーマーフレームワークを提案する。
スタックドトランスフォーマーに基づく新しいネットワークアーキテクチャは、固定された独立した提案のセットで機能レベルでマルチモダリティをモデル化するように設計されている。
次に、生成した提案のマルチモーダリティを誘導するために、地域ベースのトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2021-03-22T07:25:54Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z) - AMENet: Attentive Maps Encoder Network for Trajectory Prediction [35.22312783822563]
軌道予測は、安全な将来の動きを計画するための応用に不可欠である。
我々は Attentive Maps Network (AMENet) というエンドツーエンド生成モデルを提案する。
AMENetはエージェントの動作と相互作用情報をエンコードし、高精度でリアルなマルチパス軌道予測を行う。
論文 参考訳(メタデータ) (2020-06-15T10:00:07Z) - TPNet: Trajectory Proposal Network for Motion Prediction [81.28716372763128]
Trajectory Proposal Network (TPNet) は、新しい2段階の動作予測フレームワークである。
TPNetはまず、仮説の提案として将来の軌道の候補セットを生成し、次に提案の分類と修正によって最終的な予測を行う。
4つの大規模軌道予測データセットの実験は、TPNetが定量的かつ定性的に、最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-04-26T00:01:49Z) - MCENET: Multi-Context Encoder Network for Homogeneous Agent Trajectory
Prediction in Mixed Traffic [35.22312783822563]
都市混合交通圏における軌道予測は多くのインテリジェント交通システムにとって重要である。
本稿では,過去と未来の両方のシーンコンテキストを符号化して学習するマルチコンテキストネットワーク(MCENET)を提案する。
推定時間において,対象エージェントの過去の状況と動作情報と潜伏変数のサンプリングを組み合わせ,複数の現実的軌跡を予測する。
論文 参考訳(メタデータ) (2020-02-14T11:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。