論文の概要: Multi-Modal Fusion Transformer for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2104.09224v1
- Date: Mon, 19 Apr 2021 11:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:46:22.899659
- Title: Multi-Modal Fusion Transformer for End-to-End Autonomous Driving
- Title(参考訳): エンド・ツー・エンド自動運転用マルチモーダル核融合変圧器
- Authors: Aditya Prakash, Kashyap Chitta, Andreas Geiger
- Abstract要約: 画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
- 参考スコア(独自算出の注目度): 59.60483620730437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How should representations from complementary sensors be integrated for
autonomous driving? Geometry-based sensor fusion has shown great promise for
perception tasks such as object detection and motion forecasting. However, for
the actual driving task, the global context of the 3D scene is key, e.g. a
change in traffic light state can affect the behavior of a vehicle
geometrically distant from that traffic light. Geometry alone may therefore be
insufficient for effectively fusing representations in end-to-end driving
models. In this work, we demonstrate that imitation learning policies based on
existing sensor fusion methods under-perform in the presence of a high density
of dynamic agents and complex scenarios, which require global contextual
reasoning, such as handling traffic oncoming from multiple directions at
uncontrolled intersections. Therefore, we propose TransFuser, a novel
Multi-Modal Fusion Transformer, to integrate image and LiDAR representations
using attention. We experimentally validate the efficacy of our approach in
urban settings involving complex scenarios using the CARLA urban driving
simulator. Our approach achieves state-of-the-art driving performance while
reducing collisions by 76% compared to geometry-based fusion.
- Abstract(参考訳): 補完的センサによる表現を自律運転にどのように組み込むべきか?
幾何学に基づくセンサー融合は、物体検出や動き予測などの知覚タスクに大きな期待を寄せている。
しかし、実際の運転タスクでは、3Dシーンのグローバルなコンテキストが鍵となる。
信号機状態の変化は、その信号機から幾何的に離れた車両の挙動に影響を与える可能性がある。
したがって、幾何学だけではエンドツーエンドの駆動モデルで表現を効果的に融合するには不十分である。
本研究では,既存のセンサ融合手法に基づく模倣学習方針が,非制御交差点における複数方向からのトラフィックの処理など,グローバルな文脈的推論を必要とする動的エージェントや複雑なシナリオの存在下では過小評価されることを実証する。
そこで我々は,新しいマルチモーダルフュージョン変換器であるTransFuserを提案し,注意力を用いて画像とLiDAR表現を統合する。
CARLA都市運転シミュレータを用いた複雑なシナリオを含む都市環境におけるアプローチの有効性を実験的に検証した。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
関連論文リスト
- GITSR: Graph Interaction Transformer-based Scene Representation for Multi Vehicle Collaborative Decision-making [9.910230703889956]
本研究では,交通状態の空間的相互作用の効率的な表現とモデル化に焦点を当てた。
本研究では,グラフインタラクショントランスフォーマに基づくシーン表現のための効果的なフレームワークであるGITSRを提案する。
論文 参考訳(メタデータ) (2024-11-03T15:27:26Z) - Graph-Based Interaction-Aware Multimodal 2D Vehicle Trajectory
Prediction using Diffusion Graph Convolutional Networks [17.989423104706397]
本研究では,グラフに基づく対話型多モード軌道予測フレームワークを提案する。
このフレームワーク内では、車両の動きは時間変化グラフのノードとして概念化され、交通相互作用は動的隣接行列によって表現される。
我々は、意図特異的な特徴融合を採用し、歴史的および将来の埋め込みの適応的な統合を可能にする。
論文 参考訳(メタデータ) (2023-09-05T06:28:13Z) - Penalty-Based Imitation Learning With Cross Semantics Generation Sensor
Fusion for Autonomous Driving [1.2749527861829049]
本稿では,複数の情報モダリティを統合するために,ペナルティに基づく模倣学習手法を提案する。
最新技術(SOTA)モデルであるInterFuserと比較して,運転スコアが12%以上増加していることが観察された。
本モデルでは, 推論速度を7倍に向上し, モデルサイズを約30%削減しながら, この性能向上を実現している。
論文 参考訳(メタデータ) (2023-03-21T14:29:52Z) - Social Occlusion Inference with Vectorized Representation for Autonomous
Driving [0.0]
本稿では,エージェント・トラジェクトリとシーン・コンテキストから,エゴカーの視点を表す占有グリッド・マップ (OGM) へのマッピングを学習する,新しいソーシャル・オクルージョン・推論手法を提案する。
ベクトル化表現の性能を検証するため,完全トランスフォーマーエンコーダデコーダアーキテクチャに基づくベースラインを設計する。
我々は,現状の成果よりも優れるInterActionデータセットにおいて,符号なしの交差点に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-03-18T10:44:39Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving [46.409930329699336]
本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-31T17:57:19Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。