論文の概要: TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2205.15997v1
- Date: Tue, 31 May 2022 17:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:30:14.019142
- Title: TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving
- Title(参考訳): TransFuser: 自動運転のためのトランスフォーマーを用いたセンサフュージョン
- Authors: Kashyap Chitta, Aditya Prakash, Bernhard Jaeger, Zehao Yu, Katrin
Renz, Andreas Geiger
- Abstract要約: 本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
- 参考スコア(独自算出の注目度): 46.409930329699336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How should we integrate representations from complementary sensors for
autonomous driving? Geometry-based fusion has shown promise for perception
(e.g. object detection, motion forecasting). However, in the context of
end-to-end driving, we find that imitation learning based on existing sensor
fusion methods underperforms in complex driving scenarios with a high density
of dynamic agents. Therefore, we propose TransFuser, a mechanism to integrate
image and LiDAR representations using self-attention. Our approach uses
transformer modules at multiple resolutions to fuse perspective view and bird's
eye view feature maps. We experimentally validate its efficacy on a challenging
new benchmark with long routes and dense traffic, as well as the official
leaderboard of the CARLA urban driving simulator. At the time of submission,
TransFuser outperforms all prior work on the CARLA leaderboard in terms of
driving score by a large margin. Compared to geometry-based fusion, TransFuser
reduces the average collisions per kilometer by 48%.
- Abstract(参考訳): 自律運転のための補完センサからの表現をどのように統合するか
幾何学に基づく融合は、知覚(物体の検出、動き予測など)を約束している。
しかし、エンド・ツー・エンド駆動の文脈では、既存のセンサフュージョン法に基づく模倣学習は、動的エージェントの密度が高い複雑な運転シナリオにおいて性能が低い。
そこで本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
長距離道路と密集した交通量の多い新しいベンチマークと、carla urban driving simulatorの公式リーダーボードで、その効果を実験的に検証した。
提出時点では、TransFuserはCARLAのリーダーボードにおいて、大きなマージンでスコアを上げるという点で、これまでのすべての仕事を上回っている。
幾何ベースの融合と比較すると、TransFuserは1キロあたりの平均衝突を48%削減する。
関連論文リスト
- Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。
本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。
シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:07:53Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Sensor Fusion by Spatial Encoding for Autonomous Driving [1.319058156672392]
本稿では,カメラとLiDARのデータを融合する手法を提案する。
複数の解像度でTransformerモジュールを利用することで、ローカルおよびグローバルなコンテキスト関係を効果的に組み合わせることができる。
提案手法は, 従来の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-08-17T04:12:02Z) - Penalty-Based Imitation Learning With Cross Semantics Generation Sensor
Fusion for Autonomous Driving [1.2749527861829049]
本稿では,複数の情報モダリティを統合するために,ペナルティに基づく模倣学習手法を提案する。
最新技術(SOTA)モデルであるInterFuserと比較して,運転スコアが12%以上増加していることが観察された。
本モデルでは, 推論速度を7倍に向上し, モデルサイズを約30%削減しながら, この性能向上を実現している。
論文 参考訳(メタデータ) (2023-03-21T14:29:52Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。