論文の概要: RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM
- arxiv url: http://arxiv.org/abs/2401.03907v2
- Date: Wed, 17 Apr 2024 03:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:10:55.490988
- Title: RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM
- Title(参考訳): RoboFusion:SAMによるロバストなマルチモーダル3Dオブジェクト検出を目指して
- Authors: Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang,
- Abstract要約: 本稿では,視覚的基礎モデル(VFM)を活用して,オフ・オブ・ディストリビューション(OOD)ノイズシナリオに対処するロバストなフレームワークを提案する。
我々のロボフュージョンは、VFMの一般化とロバスト性を利用して徐々にノイズを低減する。
我々のRoboFusionは、KITTI-CとnuScenes-Cベンチマークで示されているように、ノイズの多いシナリオで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.52333703159454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD). However, while achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. Meanwhile, with the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in autonomous driving. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for autonomous driving scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. Lastly, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, our RoboFusion gradually reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, our RoboFusion achieves state-of-the-art performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks.
- Abstract(参考訳): マルチモーダルな3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究することを目的としている。
しかし、クリーンなベンチマークデータセット上での最先端(SOTA)パフォーマンスを達成する一方で、現実の環境の複雑さと厳しい条件を見落としてしまう傾向がある。
一方、視覚基礎モデル(VFM)の出現に伴い、自律運転におけるマルチモーダル3次元物体検出の堅牢性と一般化を改善するための機会と課題が提示される。
そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。
まず、SAM-ADと呼ばれる自律走行シナリオにオリジナルのSAMを適用する。
SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。
我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。
最後に、自己注意機構を用いて、融合した特徴を適応的に重み付けし、余剰雑音を抑えながら情報的特徴を高める。
まとめると、我々のRoboFusionは、VFMの一般化とロバスト性を利用してノイズを徐々に低減し、マルチモーダル3Dオブジェクト検出のレジリエンスを高める。
その結果、我々のRoboFusionは、KITTI-CとnuScenes-Cベンチマークで示されているように、ノイズの多いシナリオで最先端のパフォーマンスを実現している。
関連論文リスト
- DifFUSER: Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation [34.42067276754897]
DifFは3次元オブジェクト検出とBEVマップセグメンテーションにおける多モード融合のための拡散モデルを利用する新しいアプローチである。
DifFは拡散の固有のノイズ発生特性から利点を生かし、センサーの故障時にセンサーの特徴を洗練または合成することができる。
論文 参考訳(メタデータ) (2024-04-06T13:25:29Z) - SAM-DiffSR: Structure-Modulated Diffusion Model for Image
Super-Resolution [49.205865715776106]
本稿では,SAM-DiffSRモデルを提案する。このモデルでは,ノイズをサンプリングする過程において,SAMからの微細な構造情報を利用することで,推論時に追加の計算コストを伴わずに画像品質を向上させることができる。
DIV2Kデータセット上でPSNRの最大値で既存の拡散法を0.74dB以上越えることにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-27T01:57:02Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System [39.37647248710612]
フェイスプレゼンテーションアタック(FPA)は、様々な悪意あるアプリケーションを通じて、公衆の懸念を高めている。
我々は,M3FASという,正確で堅牢なマルチモーダル・モバイル・フェイス・アンチ・スポーフィングシステムを開発した。
論文 参考訳(メタデータ) (2023-01-30T12:37:04Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Amodal 3D Reconstruction for Robotic Manipulation via Stability and
Connectivity [3.359622001455893]
学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。
既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。
本稿では,オブジェクト形状よりも先に安定性を導入するアモーダル3D再構成システムARMと,接続前の接続,マルチチャネル入力表現を提案する。
論文 参考訳(メタデータ) (2020-09-28T08:52:54Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。