論文の概要: Fusion is Not Enough: Single Modal Attacks on Fusion Models for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2304.14614v3
- Date: Sat, 2 Mar 2024 17:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:03:04.530661
- Title: Fusion is Not Enough: Single Modal Attacks on Fusion Models for 3D
Object Detection
- Title(参考訳): fusionは不十分:3dオブジェクト検出のためのfusionモデルへの単一モード攻撃
- Authors: Zhiyuan Cheng, Hongjun Choi, James Liang, Shiwei Feng, Guanhong Tao,
Dongfang Liu, Michael Zuzak, Xiangyu Zhang
- Abstract要約: 本稿では,高度なカメラ-LiDAR融合型3次元物体検出モデルを対象として,カメラ専用対向攻撃による攻撃フレームワークを提案する。
提案手法では,2段階の最適化手法を用いて,まず,敵対的攻撃下での脆弱な画像領域を徹底的に評価する。
- 参考スコア(独自算出の注目度): 33.0406308223244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sensor fusion (MSF) is widely used in autonomous vehicles (AVs) for
perception, particularly for 3D object detection with camera and LiDAR sensors.
The purpose of fusion is to capitalize on the advantages of each modality while
minimizing its weaknesses. Advanced deep neural network (DNN)-based fusion
techniques have demonstrated the exceptional and industry-leading performance.
Due to the redundant information in multiple modalities, MSF is also recognized
as a general defence strategy against adversarial attacks. In this paper, we
attack fusion models from the camera modality that is considered to be of
lesser importance in fusion but is more affordable for attackers. We argue that
the weakest link of fusion models depends on their most vulnerable modality,
and propose an attack framework that targets advanced camera-LiDAR fusion-based
3D object detection models through camera-only adversarial attacks. Our
approach employs a two-stage optimization-based strategy that first thoroughly
evaluates vulnerable image areas under adversarial attacks, and then applies
dedicated attack strategies for different fusion models to generate deployable
patches. The evaluations with six advanced camera-LiDAR fusion models and one
camera-only model indicate that our attacks successfully compromise all of
them. Our approach can either decrease the mean average precision (mAP) of
detection performance from 0.824 to 0.353, or degrade the detection score of a
target object from 0.728 to 0.156, demonstrating the efficacy of our proposed
attack framework. Code is available.
- Abstract(参考訳): マルチセンサーフュージョン(MSF)は、特にカメラとLiDARセンサーを用いた3次元物体検出において、自動運転車(AV)において広く用いられている。
融合の目的は、それぞれのモダリティの利点を活かし、弱点を最小限に抑えることである。
高度なディープニューラルネットワーク(DNN)ベースの融合技術は、例外的で業界主導のパフォーマンスを示している。
複数のモードの冗長な情報により、MSFは敵攻撃に対する一般的な防御戦略としても認識されている。
本稿では,核融合の重要度は低いが,攻撃者にとっては手頃な価格であると考えられるカメラモダリティから核融合モデルを攻撃する。
融合モデルの最も弱いリンクは、最も弱いモダリティに依存し、カメラのみの敵攻撃による高度なLiDAR融合に基づく3Dオブジェクト検出モデルをターゲットにした攻撃フレームワークを提案する。
提案手法では,2段階の最適化手法を用いて,まず敵攻撃下で脆弱な画像領域を徹底的に評価し,その後,異なる融合モデルに対して専用の攻撃戦略を適用して,デプロイ可能なパッチを生成する。
6つの高度なカメラ-LiDAR融合モデルと1つのカメラ専用モデルによる評価は、我々の攻撃がそれら全てを危険にさらしたことを示している。
提案手法は,検出性能の平均平均精度(map)を0.824から0.353に低下させるか,対象物体の検出スコアを0.728から0.156に低下させ,提案手法の有効性を示す。
コードは利用可能。
関連論文リスト
- FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving [63.96049803915402]
多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
論文 参考訳(メタデータ) (2024-08-13T11:46:32Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Sparse Dense Fusion for 3D Object Detection [24.288662560178334]
カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。
我々は,1)3次元の幾何学的先行情報を保持するが,カメラからリッチな意味情報を失うこと,2)密度のみの代替手段が意味的連続性を保持すること,そして,LiDARの正確な幾何学的情報を見逃すこと,の2つの課題を分析する。
本稿では,Sparse Dense Fusion(SDF)を提案する。Sparse Dense Fusion(SDF)は,Transformerアーキテクチャを通じて,スパースフュージョンと高密度フュージョンモジュールの両方を組み込んだ補完的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-09T07:10:34Z) - CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion
Transformer [14.849645397321185]
カメラレーダーセンサーは、LiDARと比較してコスト、信頼性、メンテナンスにおいて大きな利点がある。
既存の融合法はしばしば、後期融合戦略(英語版)と呼ばれる結果レベルで単一のモダリティの出力を融合させる。
本稿では,3次元物体検出のためのカメラとレーダーの空間的特性と文脈的特性を効果的に活用する提案レベルの早期融合手法を提案する。
我々のカメラレーダ融合アプローチは、カメラ専用ベースラインよりも8.7および10.8ポイント高いnuScenesテストセット上で、41.1% mAPと52.3% NDSの最先端を実現し、また、カメラ上での競争性能を得る。
論文 参考訳(メタデータ) (2022-09-14T10:25:30Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Sensor Adversarial Traits: Analyzing Robustness of 3D Object Detection
Sensor Fusion Models [16.823829387723524]
我々は,高性能でオープンソースのセンサ融合モデルアーキテクチャの強靭性を敵攻撃に対して解析する。
LIDARセンサーを使用しているにもかかわらず、このモデルは、意図的に構築された画像ベースの敵攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2021-09-13T23:38:42Z) - Security Analysis of Camera-LiDAR Semantic-Level Fusion Against
Black-Box Attacks on Autonomous Vehicles [6.477833151094911]
近年、深いニューラルネットワーク上に構築されたLiDARベースの知覚は、スプーフィング攻撃に弱いことが示されている。
我々は、スプーフィング攻撃下でのカメラ-LiDAR融合の最初の解析と、任意のAVコンテキストにおけるセマンティックフュージョンの最初のセキュリティ解析を行う。
セマンティックカメラとLiDARの融合は、標的モデルに対して70%から90%の成功率でフラストタル攻撃に対する広範な脆弱性を示す。
論文 参考訳(メタデータ) (2021-06-13T21:59:19Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Adversarial Attacks on Camera-LiDAR Models for 3D Car Detection [15.323682536206574]
ほとんどの自動運転車は知覚のためにLiDARとRGBカメラセンサーを使っている。
深層ニューラルネットワーク(DNN)は、3D検出で最先端の性能を達成しました。
我々は,各タイプに対する普遍的かつ物理的に実現可能な敵攻撃を提案し,その脆弱性を攻撃と対比する。
論文 参考訳(メタデータ) (2021-03-17T05:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。