論文の概要: M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2403.12552v1
- Date: Tue, 19 Mar 2024 08:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:52:48.423270
- Title: M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving
- Title(参考訳): M2DA: 自律運転のための運転注意を組み込んだ多モード核融合変圧器
- Authors: Dongyang Xu, Haokun Li, Qingfan Wang, Ziying Song, Lei Chen, Hanming Deng,
- Abstract要約: 自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
- 参考スコア(独自算出の注目度): 11.36165122994834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has witnessed remarkable progress. However, the extensive deployment of autonomous vehicles has yet to be realized, primarily due to 1) inefficient multi-modal environment perception: how to integrate data from multi-modal sensors more efficiently; 2) non-human-like scene understanding: how to effectively locate and predict critical risky agents in traffic scenarios like an experienced driver. To overcome these challenges, in this paper, we propose a Multi-Modal fusion transformer incorporating Driver Attention (M2DA) for autonomous driving. To better fuse multi-modal data and achieve higher alignment between different modalities, a novel Lidar-Vision-Attention-based Fusion (LVAFusion) module is proposed. By incorporating driver attention, we empower the human-like scene understanding ability to autonomous vehicles to identify crucial areas within complex scenarios precisely and ensure safety. We conduct experiments on the CARLA simulator and achieve state-of-the-art performance with less data in closed-loop benchmarks. Source codes are available at https://anonymous.4open.science/r/M2DA-4772.
- Abstract(参考訳): エンドツーエンドの自動運転は目覚ましい進歩を遂げた。
しかし、主に自動運転車の広範な展開は実現されていない。
1)非効率なマルチモーダル環境認識:マルチモーダルセンサからのデータをより効率的に統合する方法
2) 経験豊富なドライバーのような交通シナリオにおいて,危険因子を効果的に発見し,予測する方法。
本稿では,運転注意(M2DA)を組み込んだ多モード核融合トランスフォーマを提案する。
マルチモーダルデータを融合し、異なるモーダル間の高整合を実現するために、新しいLidar-Vision-Attention-based Fusion (LVAFusion)モジュールを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、複雑なシナリオの中で重要な領域を正確に特定し、安全性を確保する。
我々はCARLAシミュレータで実験を行い、クローズドループベンチマークにおいて少ないデータで最先端の性能を達成する。
ソースコードはhttps://anonymous.4open.science/r/M2DA-4772で公開されている。
関連論文リスト
- MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition [10.060717595852271]
我々はMultiFuserという新しいマルチモーダル核融合トランスを提案する。
マルチモーダルカーキャビンビデオ間の相互関係と相互作用を識別する。
Drive&Actデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2024-08-03T12:33:21Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention [28.18784311981388]
マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略(Sum, Convarity, SE, AFF)と比較し、その効果を実証する。
本データベースを用いた実験により, 提案したMHSAベースの核融合法(AUC-ROC:97.0%)は, 全ベースラインおよび従来のアプローチより優れており, 2)パッチマスキングによるMHSAのトレーニングは, モダリティ・ビュー崩壊に対するロバスト性を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-13T09:50:32Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving [46.409930329699336]
本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-31T17:57:19Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Multi-modal Experts Network for Autonomous Driving [16.587968446342995]
センサデータからエンドツーエンドの学習は、自動運転の有望な結果を示している。
このようなネットワークをトレーニングし、デプロイすることは困難であり、考慮された環境では少なくとも2つの問題に直面している。
本稿では,新しいマルチモーダル・エキスパート・ネットワーク・アーキテクチャを提案し,マルチステージ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-18T14:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。