Fugu-MT 論文翻訳(概要): RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM

論文の概要: RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM

arxiv url: http://arxiv.org/abs/2401.03907v4
Date: Tue, 23 Apr 2024 12:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 19:25:53.146142
Title: RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM
Title（参考訳）: RoboFusion:SAMによるロバストなマルチモーダル3Dオブジェクト検出を目指して
Authors: Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang,
Abstract要約: マルチモーダルな3Dオブジェクト検出器は、自律運転のための安全で信頼性の高い認識システムを探究することを目的としている。視覚基盤モデル(VFM)の出現に伴い、VFMの堅牢性と一般化を改善するための機会と課題が提示される。我々は,SAM のような VFM を利用したロバストなフレームワークであるRoboFusion を提案し,アウト・オブ・ディストリビューション(OOD) ノイズシナリオに対処する。
参考スコア（独自算出の注目度）: 13.52333703159454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD).Although achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. With the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in AD. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for AD scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. At last, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, RoboFusion significantly reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, RoboFusion achieves SOTA performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks. Code is available at https://github.com/adept-thu/RoboFusion.
Abstract（参考訳）: マルチモーダルな3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究することを目的としている。クリーンなベンチマークデータセット上でのSOTA(State-of-the-art)のパフォーマンスは達成するが、現実の環境の複雑さと厳しい条件を無視する傾向にある。視覚基礎モデル(VFM)の出現に伴い、ADにおけるマルチモーダル3Dオブジェクト検出の堅牢性と一般化を改善するための機会と課題が提示される。そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。私たちはまず、SAM-ADというADシナリオにSAMを適応させます。 SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。最終的に、我々は自己注意機構を用いて、融合した特徴を適応的に重み付けし、過度な騒音を抑えながら情報的特徴を高める。まとめると、RoboFusionはVFMの一般化とロバスト性を利用してノイズを著しく低減し、マルチモーダル3Dオブジェクト検出のレジリエンスを高める。その結果、KITTI-CとnuScenes-Cベンチマークが示すように、RoboFusionはノイズの多いシナリオでSOTAのパフォーマンスを達成する。コードはhttps://github.com/adept-thu/RoboFusion.comで入手できる。

関連論文リスト

A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文参考訳（メタデータ） (2025-11-23T08:42:17Z)
DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion [9.225796678303487]
マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。 Occupancy Ray Sampling (ORS) という意味豊かな3次元表現を数値駆動シーン表現とともに導入する。モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
論文参考訳（メタデータ） (2025-05-03T16:20:01Z)
Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文参考訳（メタデータ） (2025-03-17T08:26:11Z)
Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文参考訳（メタデータ） (2024-12-02T14:44:39Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection [2.123197540438989]
多くのレーダービジョン融合モデルではレーダーを希薄なLiDARとして扱い、レーダー固有の情報を過小評価している。本稿では,レーダー固有データを深度予測プロセスに統合したRDLモジュールを提案する。また、異なるモードでBEV機能を抽出するUnified Feature Fusion (UFF)アプローチも導入する。
論文参考訳（メタデータ） (2024-09-23T06:57:27Z)
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文参考訳（メタデータ） (2024-08-12T06:46:05Z)
Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文参考訳（メタデータ） (2024-07-27T03:21:44Z)
PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文参考訳（メタデータ） (2024-03-14T09:28:12Z)
SAM-DiffSR: Structure-Modulated Diffusion Model for Image Super-Resolution [49.205865715776106]
本稿では,SAM-DiffSRモデルを提案する。このモデルでは,ノイズをサンプリングする過程において,SAMからの微細な構造情報を利用することで,推論時に追加の計算コストを伴わずに画像品質を向上させることができる。 DIV2Kデータセット上でPSNRの最大値で既存の拡散法を0.74dB以上越えることにより,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-27T01:57:02Z)
FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文参考訳（メタデータ） (2023-09-11T06:27:25Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera 3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。 nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文参考訳（メタデータ） (2020-02-19T15:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。