論文の概要: MMFN: Multi-Modal-Fusion-Net for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2207.00186v1
- Date: Fri, 1 Jul 2022 03:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 02:09:14.923035
- Title: MMFN: Multi-Modal-Fusion-Net for End-to-End Driving
- Title(参考訳): MMFN:エンドツーエンド運転のためのマルチモーダルフュージョンネット
- Authors: Qingwen Zhang, Mingkai Tang, Ruoyu Geng, Feiyi Chen, Ren Xin, Lujia
Wang
- Abstract要約: 本稿では,ベクトル化ハイディフィニション(HD)マップから特徴を効率的に抽出する手法を提案する。
さらに,マルチロードルールを考慮し,モデル性能をさらに向上する新たな専門家を設計する。
- 参考スコア(独自算出の注目度): 4.2624531859523245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the fact that humans use diverse sensory organs to perceive the
world, sensors with different modalities are deployed in end-to-end driving to
obtain the global context of the 3D scene. In previous works, camera and LiDAR
inputs are fused through transformers for better driving performance. These
inputs are normally further interpreted as high-level map information to assist
navigation tasks. Nevertheless, extracting useful information from the complex
map input is challenging, for redundant information may mislead the agent and
negatively affect driving performance. We propose a novel approach to
efficiently extract features from vectorized High-Definition (HD) maps and
utilize them in the end-to-end driving tasks. In addition, we design a new
expert to further enhance the model performance by considering multi-road
rules. Experimental results prove that both of the proposed improvements enable
our agent to achieve superior performance compared with other methods.
- Abstract(参考訳): 人間は様々な感覚器官を使って世界を知覚しているという事実に触発され、さまざまなモダリティを持つセンサーがエンドツーエンドの運転に展開され、3Dシーンのグローバルなコンテキストが得られます。
以前の研究では、カメラとLiDARの入力はトランスフォーマーを通して融合され、運転性能が向上した。
これらの入力は通常、ナビゲーションタスクを補助する高レベルマップ情報として解釈される。
しかし、複雑な地図入力から有用な情報を抽出することは困難であり、冗長な情報はエージェントを誤解させ、運転性能に悪影響を及ぼす可能性がある。
本稿では,ベクトル化ハイディフィニション(HD)マップから特徴を効率的に抽出し,エンドツーエンドの運転タスクで活用する手法を提案する。
さらに,マルチロードルールを考慮し,モデル性能をさらに向上する新たな専門家を設計する。
実験の結果,提案手法の両改良により,他の手法と比較して優れた性能が得られた。
関連論文リスト
- Kaninfradet3D:A Road-side Camera-LiDAR Fusion 3D Perception Model based on Nonlinear Feature Extraction and Intrinsic Correlation [7.944126168010804]
AI支援運転の開発に伴い、エゴ車両の3D知覚タスクのための多くの手法が登場した。
グローバルな視点と広いセンシング範囲を提供する能力によって、道端の視点は発展する価値がある。
本稿では,特徴抽出と融合モジュールを最適化したKaninfradet3Dを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:28:42Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving [46.409930329699336]
本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-31T17:57:19Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。