論文の概要: RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM
- arxiv url: http://arxiv.org/abs/2401.03907v4
- Date: Tue, 23 Apr 2024 12:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:25:53.146142
- Title: RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM
- Title(参考訳): RoboFusion:SAMによるロバストなマルチモーダル3Dオブジェクト検出を目指して
- Authors: Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang,
- Abstract要約: マルチモーダルな3Dオブジェクト検出器は、自律運転のための安全で信頼性の高い認識システムを探究することを目的としている。
視覚基盤モデル(VFM)の出現に伴い、VFMの堅牢性と一般化を改善するための機会と課題が提示される。
我々は,SAM のような VFM を利用したロバストなフレームワークであるRoboFusion を提案し,アウト・オブ・ディストリビューション(OOD) ノイズシナリオに対処する。
- 参考スコア(独自算出の注目度): 13.52333703159454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD).Although achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. With the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in AD. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for AD scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. At last, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, RoboFusion significantly reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, RoboFusion achieves SOTA performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks. Code is available at https://github.com/adept-thu/RoboFusion.
- Abstract(参考訳): マルチモーダルな3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究することを目的としている。
クリーンなベンチマークデータセット上でのSOTA(State-of-the-art)のパフォーマンスは達成するが、現実の環境の複雑さと厳しい条件を無視する傾向にある。
視覚基礎モデル(VFM)の出現に伴い、ADにおけるマルチモーダル3Dオブジェクト検出の堅牢性と一般化を改善するための機会と課題が提示される。
そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。
私たちはまず、SAM-ADというADシナリオにSAMを適応させます。
SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。
我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。
最終的に、我々は自己注意機構を用いて、融合した特徴を適応的に重み付けし、過度な騒音を抑えながら情報的特徴を高める。
まとめると、RoboFusionはVFMの一般化とロバスト性を利用してノイズを著しく低減し、マルチモーダル3Dオブジェクト検出のレジリエンスを高める。
その結果、KITTI-CとnuScenes-Cベンチマークが示すように、RoboFusionはノイズの多いシナリオでSOTAのパフォーマンスを達成する。
コードはhttps://github.com/adept-thu/RoboFusion.comで入手できる。
関連論文リスト
- SAM-DiffSR: Structure-Modulated Diffusion Model for Image
Super-Resolution [49.205865715776106]
本稿では,SAM-DiffSRモデルを提案する。このモデルでは,ノイズをサンプリングする過程において,SAMからの微細な構造情報を利用することで,推論時に追加の計算コストを伴わずに画像品質を向上させることができる。
DIV2Kデータセット上でPSNRの最大値で既存の拡散法を0.74dB以上越えることにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-27T01:57:02Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - CrossFusion: Interleaving Cross-modal Complementation for
Noise-resistant 3D Object Detection [7.500487420385808]
本稿では, カメラとLiDARの機能を完全に活用し, クロスモーダル補間戦略を設計した, より堅牢で耐雑音性のあるスキームを提案する。
提案手法は, 設定条件下での最先端の手法より優れるだけでなく, 特定の故障シナリオに対して再学習することなく, モデルの耐雑音性を実証する。
論文 参考訳(メタデータ) (2023-04-19T14:35:16Z) - M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing
System [36.90840562720965]
フェイスプレゼンテーションアタック(FPA)は、様々な悪意あるアプリケーションを通じて、公衆の懸念を高めている。
我々は、M3FASという、正確で堅牢なマルチモーダル・モバイル・フェイス・アンチ・スポーフィング・システムを考案し、上記の問題を克服した。
論文 参考訳(メタデータ) (2023-01-30T12:37:04Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Amodal 3D Reconstruction for Robotic Manipulation via Stability and
Connectivity [3.359622001455893]
学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。
既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。
本稿では,オブジェクト形状よりも先に安定性を導入するアモーダル3D再構成システムARMと,接続前の接続,マルチチャネル入力表現を提案する。
論文 参考訳(メタデータ) (2020-09-28T08:52:54Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。