論文の概要: Sensor Fusion by Spatial Encoding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2308.10707v1
- Date: Thu, 17 Aug 2023 04:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:29:59.883282
- Title: Sensor Fusion by Spatial Encoding for Autonomous Driving
- Title(参考訳): 空間符号化による自律運転用センサフュージョン
- Authors: Quoc-Vinh Lai-Dang, Jihui Lee, Bumgeun Park, Dongsoo Har
- Abstract要約: 本稿では,カメラとLiDARのデータを融合する手法を提案する。
複数の解像度でTransformerモジュールを利用することで、ローカルおよびグローバルなコンテキスト関係を効果的に組み合わせることができる。
提案手法は, 従来の手法よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 1.319058156672392
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Sensor fusion is critical to perception systems for task domains such as
autonomous driving and robotics. Recently, the Transformer integrated with CNN
has demonstrated high performance in sensor fusion for various perception
tasks. In this work, we introduce a method for fusing data from camera and
LiDAR. By employing Transformer modules at multiple resolutions, proposed
method effectively combines local and global contextual relationships. The
performance of the proposed method is validated by extensive experiments with
two adversarial benchmarks with lengthy routes and high-density traffics. The
proposed method outperforms previous approaches with the most challenging
benchmarks, achieving significantly higher driving and infraction scores.
Compared with TransFuser, it achieves 8% and 19% improvement in driving scores
for the Longest6 and Town05 Long benchmarks, respectively.
- Abstract(参考訳): センサ融合は、自動運転やロボット工学のようなタスク領域の知覚システムにとって重要である。
近年,cnnと統合したトランスは様々な知覚タスクにおいてセンサ融合において高い性能を示している。
本研究では,カメラとLiDARのデータを融合する手法を提案する。
複数の解像度でトランスフォーマーモジュールを使用することで、提案手法はローカルとグローバルのコンテキスト関係を効果的に結合する。
提案手法の性能は,長い経路と高密度トラフィックを持つ2つの逆数ベンチマークによる広範囲な実験により検証された。
提案手法は,最も挑戦的なベンチマークで先行手法を上回り,高い運転率と屈折率を達成している。
TransFuserと比較すると、それぞれLongest6とTown05 Longベンチマークの駆動スコアが8%と19%改善されている。
関連論文リスト
- Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
MUSESデータセットでは,マルチモーダルパノプティクスセグメンテーションの59.7 PQ,セマンティックセグメンテーションの78.2 mIoU,公開ベンチマークの1位にランクインした。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion
for Improved Waypoint Prediction [38.971222477695214]
RGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。
提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現した。
論文 参考訳(メタデータ) (2023-08-04T03:59:10Z) - Penalty-Based Imitation Learning With Cross Semantics Generation Sensor
Fusion for Autonomous Driving [1.2749527861829049]
本稿では,複数の情報モダリティを統合するために,ペナルティに基づく模倣学習手法を提案する。
最新技術(SOTA)モデルであるInterFuserと比較して,運転スコアが12%以上増加していることが観察された。
本モデルでは, 推論速度を7倍に向上し, モデルサイズを約30%削減しながら, この性能向上を実現している。
論文 参考訳(メタデータ) (2023-03-21T14:29:52Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving [46.409930329699336]
本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-31T17:57:19Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - HydraFusion: Context-Aware Selective Sensor Fusion for Robust and
Efficient Autonomous Vehicle Perception [9.975955132759385]
自律走行車(AV)の知覚を改善するために、カメラ、レーダー、ライダーセンサーからのセンサデータを融合する技術が提案されている。
既存の手法は、融合実装の剛性のため、困難な運転環境では不十分に堅牢である。
提案するHydraFusionは、現在の運転状況を特定し、センサの最良の組み合わせを融合する選択的なセンサー融合フレームワークである。
論文 参考訳(メタデータ) (2022-01-17T22:19:53Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。