論文の概要: FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2308.01006v2
- Date: Thu, 3 Aug 2023 03:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 11:20:32.696561
- Title: FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of
Autonomous Driving
- Title(参考訳): fusionad: 自動運転の予測と計画タスクのためのマルチモダリティ融合
- Authors: Tengju Ye, Wei Jing, Chunyong Hu, Shikun Huang, Lingping Gao, Fangzhen
Li, Jingke Wang, Ke Guo, Wencong Xiao, Weibo Mao, Hang Zheng, Kun Li, Junbo
Chen, Kaicheng Yu
- Abstract要約: FusionADは、最も重要なセンサー、カメラ、LiDARからの情報を融合する最初の統合フレームワークです。
カメラベースのエンドツーエンドUniADに対して、FMSと呼ばれるモダリティ対応の予測ステータス計画モジュールを融合支援する手法を確立する。
我々は、一般的に使用されているベンチマークnuのデータセット、我々の最先端性能、検出や追跡などの認識タスクにおける平均15%のベースライン、占有率の10%の予測精度、予測誤差の0.708から0.389の削減、衝突率の0.31%の削減など、幅広い実験を行った。
- 参考スコア(独自算出の注目度): 13.402684986456672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building a multi-modality multi-task neural network toward accurate and
robust performance is a de-facto standard in perception task of autonomous
driving. However, leveraging such data from multiple sensors to jointly
optimize the prediction and planning tasks remains largely unexplored. In this
paper, we present FusionAD, to the best of our knowledge, the first unified
framework that fuse the information from two most critical sensors, camera and
LiDAR, goes beyond perception task. Concretely, we first build a transformer
based multi-modality fusion network to effectively produce fusion based
features. In constrast to camera-based end-to-end method UniAD, we then
establish a fusion aided modality-aware prediction and status-aware planning
modules, dubbed FMSPnP that take advantages of multi-modality features. We
conduct extensive experiments on commonly used benchmark nuScenes dataset, our
FusionAD achieves state-of-the-art performance and surpassing baselines on
average 15% on perception tasks like detection and tracking, 10% on occupancy
prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score
and reduces the collision rate from 0.31% to only 0.12%.
- Abstract(参考訳): 高精度でロバストなパフォーマンスに向けたマルチモダリティマルチタスクニューラルネットワークの構築は、自動運転の知覚タスクにおけるデファクトスタンダードである。
しかし、複数のセンサからのそのようなデータを活用して予測と計画タスクを共同で最適化することは、ほとんど未検討のままである。
本稿では、FusionADについて、私たちの知る限りでは、カメラとLiDARの2つの重要なセンサーからの情報を融合する最初の統合フレームワークであるFusionADについて述べる。
具体的には、最初にトランスフォーマーベースのマルチモダリティフュージョンネットワークを構築し、フュージョンベースの機能を効果的に生み出す。
カメラベースのエンドツーエンド手法であるUniADに対して、マルチモーダル特徴の利点を生かしたFMSPnPと呼ばれるモダリティ対応予測とステータス対応計画モジュールを融合して構築する。
一般的なベンチマークnuscenesデータセットを広範囲に実験した結果,fusionadは最先端のパフォーマンスを達成し,検出や追跡などの知覚タスクでは平均15%,占有予測精度では10%,adeスコアでは0.708から0.389に低下し,衝突率を0.31%から0.12%に低減した。
関連論文リスト
- Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - Steering Prediction via a Multi-Sensor System for Autonomous Racing [45.70482345703285]
伝統的に、レーシングカーは主要な視覚系として2D LiDARに依存している。
本研究では,イベントカメラと既存システムの統合について検討し,時間情報の拡張について述べる。
私たちの目標は、2D LiDARデータをイベントデータをエンドツーエンドの学習フレームワークに融合させることです。
論文 参考訳(メタデータ) (2024-09-28T13:58:24Z) - Foundation Models for Structural Health Monitoring [17.37816294594306]
本稿では,トランスフォーマーニューラルネットワークをMasked Auto-Encoderアーキテクチャを用いて,構造的健康モニタリングのための基礎モデルとして初めて利用することを提案する。
自己教師付き事前学習を通じて、複数の大規模データセットから一般化可能な表現を学習する能力を実証する。
本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-04-03T13:32:44Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z) - On Efficient Uncertainty Estimation for Resource-Constrained Mobile
Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。
Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。
我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-11-11T22:24:15Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。