論文の概要: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
- arxiv url: http://arxiv.org/abs/2202.02703v3
- Date: Mon, 16 Dec 2024 23:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:15.312060
- Title: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
- Title(参考訳): 自動車運転知覚のためのマルチモーダルセンサフュージョンに関する調査
- Authors: Keli Huang, Botian Shi, Xiang Li, Xin Li, Siyuan Huang, Yikang Li,
- Abstract要約: 本稿では,自律運転における知覚課題に対する既存のマルチモーダル方式の文献的考察を行う。
融合段階の観点から,より合理的な分類法により,これらを2つの主要なクラス,4つのマイナークラスに分割する革新的な方法を提案する。
- 参考スコア(独自算出の注目度): 29.804411344922382
- License:
- Abstract: Multi-modal fusion is a fundamental task for the perception of an autonomous driving system, which has recently intrigued many researchers. However, achieving a rather good performance is not an easy task due to the noisy raw data, underutilized information, and the misalignment of multi-modal sensors. In this paper, we provide a literature review of the existing multi-modal-based methods for perception tasks in autonomous driving. Generally, we make a detailed analysis including over 50 papers leveraging perception sensors including LiDAR and camera trying to solve object detection and semantic segmentation tasks. Different from traditional fusion methodology for categorizing fusion models, we propose an innovative way that divides them into two major classes, four minor classes by a more reasonable taxonomy in the view of the fusion stage. Moreover, we dive deep into the current fusion methods, focusing on the remaining problems and open-up discussions on the potential research opportunities. In conclusion, what we expect to do in this paper is to present a new taxonomy of multi-modal fusion methods for the autonomous driving perception tasks and provoke thoughts of the fusion-based techniques in the future.
- Abstract(参考訳): マルチモーダル融合は、最近多くの研究者を惹きつけてきた自律運転システムの認識の基本的なタスクである。
しかし、ノイズの多い生データ、未利用情報、マルチモーダルセンサの誤調整などにより、かなり優れた性能を達成することは容易ではない。
本稿では,自律運転における知覚課題に対する既存のマルチモーダル方式の文献的考察を行う。
一般に、LiDARやカメラなどの知覚センサを利用した50以上の論文を含む詳細な分析を行い、オブジェクト検出とセマンティックセグメンテーションの課題を解決する。
融合モデルを分類する従来の融合手法とは違って、融合段階の観点からより合理的な分類法により、これらを2つの主要なクラスである4つのマイナークラスに分割する革新的な方法を提案する。
さらに, 現状の融合手法を深く掘り下げ, 残りの問題に焦点をあて, 今後の研究機会についてオープンな議論を行う。
結論として,本論文では,自律運転認識タスクのためのマルチモーダルフュージョン法の新たな分類法を提案するとともに,将来的なフュージョンベース手法の考え方を提起する。
関連論文リスト
- MMLF: Multi-modal Multi-class Late Fusion for Object Detection with Uncertainty Estimation [13.624431305114564]
本稿では,マルチクラス検出が可能なレイトフュージョンのための先駆的マルチモーダル・マルチクラスレイトフュージョン法を提案する。
KITTI検証と公式テストデータセットで実施された実験は、大幅なパフォーマンス改善を示している。
我々のアプローチでは、不確実性分析を分類融合プロセスに組み込んで、モデルをより透明で信頼性の高いものにします。
論文 参考訳(メタデータ) (2024-10-11T11:58:35Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Multi-modal Fusion Technology based on Vehicle Information: A Survey [0.7646713951724012]
現在のマルチモーダル融合法は主にカメラデータとLiDARデータに焦点を当てているが、車両の底面センサーが提供する運動情報にはほとんど注意を払わない。
これらの情報は複雑な外部シーンの影響を受けないため、より堅牢で信頼性が高い。
自動車ボトム情報のさらなる活用を促進するために,自動運転タスクのための多モード融合技術の新たなアイデアが提案されている。
論文 参考訳(メタデータ) (2022-11-11T09:25:53Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - A Comparative Analysis of Decision-Level Fusion for Multimodal Driver
Behaviour Understanding [22.405229530620414]
本稿では,映像に基づく運転観察における決定レベルの遅延融合のための異なるパラダイムの実証的評価について述べる。
単一モーダル分類器の結果を結合するための7つの異なるメカニズムを比較した。
これは、車内におけるマルチモーダル予測器の結果を融合させる戦略に関する最初の体系的な研究である。
論文 参考訳(メタデータ) (2022-04-10T17:49:22Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Multi-modal Experts Network for Autonomous Driving [16.587968446342995]
センサデータからエンドツーエンドの学習は、自動運転の有望な結果を示している。
このようなネットワークをトレーニングし、デプロイすることは困難であり、考慮された環境では少なくとも2つの問題に直面している。
本稿では,新しいマルチモーダル・エキスパート・ネットワーク・アーキテクチャを提案し,マルチステージ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-18T14:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。