Fugu-MT 論文翻訳(概要): Resilient Sensor Fusion under Adverse Sensor Failures via Multi-Modal Expert Fusion

論文の概要: Resilient Sensor Fusion under Adverse Sensor Failures via Multi-Modal Expert Fusion

arxiv url: http://arxiv.org/abs/2503.19776v1
Date: Tue, 25 Mar 2025 15:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 02:13:56.536076
Title: Resilient Sensor Fusion under Adverse Sensor Failures via Multi-Modal Expert Fusion
Title（参考訳）: 多モードエキスパート核融合による逆センサ故障時のレジリエント・センサ・フュージョン
Authors: Konyul Park, Yecheol Kim, Daehun Kim, Jun Won Choi,
Abstract要約: 我々は,多種多様な専門家のアプローチにより,高効率で堅牢なLiDARカメラ3Dオブジェクト検出器であるMoMEを導入し,堅牢な性能を実現する。カメラ機能,LiDAR機能,あるいはそれらを組み合わせてオブジェクトクエリをデコードする3つの並列専門家デコーダを使って,MoMEはモダリティ依存関係を完全に分離する。
参考スコア（独自算出の注目度）: 9.267513949984982
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern autonomous driving perception systems utilize complementary multi-modal sensors, such as LiDAR and cameras. Although sensor fusion architectures enhance performance in challenging environments, they still suffer significant performance drops under severe sensor failures, such as LiDAR beam reduction, LiDAR drop, limited field of view, camera drop, and occlusion. This limitation stems from inter-modality dependencies in current sensor fusion frameworks. In this study, we introduce an efficient and robust LiDAR-camera 3D object detector, referred to as MoME, which can achieve robust performance through a mixture of experts approach. Our MoME fully decouples modality dependencies using three parallel expert decoders, which use camera features, LiDAR features, or a combination of both to decode object queries, respectively. We propose Multi-Expert Decoding (MED) framework, where each query is decoded selectively using one of three expert decoders. MoME utilizes an Adaptive Query Router (AQR) to select the most appropriate expert decoder for each query based on the quality of camera and LiDAR features. This ensures that each query is processed by the best-suited expert, resulting in robust performance across diverse sensor failure scenarios. We evaluated the performance of MoME on the nuScenes-R benchmark. Our MoME achieved state-of-the-art performance in extreme weather and sensor failure conditions, significantly outperforming the existing models across various sensor failure scenarios.
Abstract（参考訳）: 現代の自律運転認識システムは、LiDARやカメラのような補完的なマルチモーダルセンサーを利用する。センサー融合アーキテクチャは、困難な環境での性能を向上させるが、LiDARビームの低減、LiDARドロップ、視野の制限、カメラドロップ、オクルージョンなどの深刻なセンサー障害により、依然として大きなパフォーマンス低下を被っている。この制限は、現在のセンサー融合フレームワークにおけるモダリティ間の依存関係に起因している。本研究では,MoMEと呼ばれる高効率で堅牢なLiDARカメラ3Dオブジェクト検出器を導入する。カメラ機能,LiDAR機能,あるいは2つの組み合わせを組み合わせてオブジェクトクエリをデコードする3つの並列専門家デコーダを用いて,MoMEはモダリティ依存を完全に分離する。本稿では,3つのエキスパートデコーダのうちの1つを用いて,各クエリを選択的に復号するマルチエキスパートデコーダ(MED)フレームワークを提案する。 MoMEは、アダプティブクエリルータ(AQR)を使用して、カメラとLiDARの機能の品質に基づいて、クエリ毎に最も適切な専門家デコーダを選択する。これにより、各クエリが最も適した専門家によって処理され、さまざまなセンサ障害シナリオで堅牢なパフォーマンスを実現する。 nuScenes-RベンチマークによるMoMEの性能評価を行った。我々のMoMEは、極端気象条件とセンサ故障条件において最先端の性能を達成し、センサ故障シナリオにおいて既存のモデルよりも大幅に優れていた。

関連論文リスト

MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文参考訳（メタデータ） (2024-08-12T06:46:05Z)
Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文参考訳（メタデータ） (2024-07-27T03:21:44Z)
Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文参考訳（メタデータ） (2024-04-08T01:38:43Z)
MultiCorrupt: A Multi-Modal Robustness Dataset and Benchmark of LiDAR-Camera Fusion for 3D Object Detection [5.462358595564476]
自動走行のためのマルチモーダル3Dオブジェクト検出モデルは、nuScenesのようなコンピュータビジョンベンチマークでは例外的な性能を示した。しかし、密集したLiDAR点雲や精密に校正されたセンサーアレイへの依存は、現実世界のアプリケーションに課題をもたらす。我々は,10種類の汚職に対してマルチモーダル3Dオブジェクト検出器の堅牢性を評価するためのベンチマークであるMultiCorruptを紹介する。
論文参考訳（メタデータ） (2024-02-18T18:56:13Z)
Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。 3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文参考訳（メタデータ） (2023-05-12T18:08:51Z)
HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文参考訳（メタデータ） (2022-06-30T09:40:05Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。 TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文参考訳（メタデータ） (2022-03-22T07:15:13Z)
FUTR3D: A Unified Sensor Fusion Framework for 3D Detection [18.70932813595532]
ほぼ任意のセンサ構成で使用できる3D検出のための最初の統合エンドツーエンドセンサフュージョンフレームワークR3Dを提案する。 R3Dは、クエリベースのModality-Agnostic Feature Sampler (MAFS)と、3D検出のためのセット・ツー・セット・ロスを備えた変換器デコーダを採用している。 NuScenesデータセットでは、R3Dは、さまざまなセンサーの組み合わせで特別に設計されたメソッドよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-03-20T20:41:55Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文参考訳（メタデータ） (2021-08-17T08:53:11Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。