論文の概要: A Black-Box Evaluation Framework for Semantic Robustness in Bird's Eye View Detection
- arxiv url: http://arxiv.org/abs/2412.13913v1
- Date: Wed, 18 Dec 2024 14:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:52.799671
- Title: A Black-Box Evaluation Framework for Semantic Robustness in Bird's Eye View Detection
- Title(参考訳): 鳥の視線検出における意味ロバストネスのブラックボックス評価フレームワーク
- Authors: Fu Wang, Yanghao Zhang, Xiangyu Yin, Guangliang Cheng, Zeyu Fu, Xiaowei Huang, Wenjie Ruan,
- Abstract要約: 我々は,BEVモデルを騙すために3つの一般的な意味摂動を逆向きに最適化するロバストネス評価フレームワークを開発する。
セマンティック摂動を最適化することで生じる課題に対処するため、mAPメトリックを置き換えるスムーズな距離に基づく代理関数を設計する。
最近の10種類のBEVモデルのセマンティックロバスト性に関するベンチマークを提供する。
- 参考スコア(独自算出の注目度): 24.737984789074094
- License:
- Abstract: Camera-based Bird's Eye View (BEV) perception models receive increasing attention for their crucial role in autonomous driving, a domain where concerns about the robustness and reliability of deep learning have been raised. While only a few works have investigated the effects of randomly generated semantic perturbations, aka natural corruptions, on the multi-view BEV detection task, we develop a black-box robustness evaluation framework that adversarially optimises three common semantic perturbations: geometric transformation, colour shifting, and motion blur, to deceive BEV models, serving as the first approach in this emerging field. To address the challenge posed by optimising the semantic perturbation, we design a smoothed, distance-based surrogate function to replace the mAP metric and introduce SimpleDIRECT, a deterministic optimisation algorithm that utilises observed slopes to guide the optimisation process. By comparing with randomised perturbation and two optimisation baselines, we demonstrate the effectiveness of the proposed framework. Additionally, we provide a benchmark on the semantic robustness of ten recent BEV models. The results reveal that PolarFormer, which emphasises geometric information from multi-view images, exhibits the highest robustness, whereas BEVDet is fully compromised, with its precision reduced to zero.
- Abstract(参考訳): カメラベースのBird's Eye View (BEV)知覚モデルは、ディープラーニングの堅牢性と信頼性に対する懸念が高まり、自動運転において重要な役割を担っている。
ランダムに生成されたセマンティックな摂動、いわゆる自然破壊が多視点BEV検出タスクに与える影響を調査する研究は少ないが、我々は、幾何学的変換、色シフト、動きのぼやけという3つの一般的なセマンティックな摂動を逆向きに最適化するブラックボックスロバストネス評価フレームワークを開発し、この新興分野における最初のアプローチとして機能する。
セマンティックな摂動を最適化することで生じる課題に対処するため、mAPメトリックを置き換えるスムーズな距離ベースサロゲート関数を設計し、観測斜面を利用して最適化プロセスを導出する決定論的最適化アルゴリズムSimpleDIRECTを導入する。
ランダムな摂動と2つの最適化ベースラインを比較して,提案手法の有効性を実証する。
さらに、最近のBEVモデル10のセマンティックロバスト性に関するベンチマークも提供する。
その結果、多視点画像からの幾何学的情報を強調するPolarFormerは、高い堅牢性を示す一方、BEVDetは完全に妥協されており、精度は0に低下していることが明らかとなった。
関連論文リスト
- Uncertainty Quantification for Bird's Eye View Semantic Segmentation: Methods and Benchmarks [10.193504550494486]
本稿では,BEVセグメンテーションにおける予測不確実性定量化のためのベンチマークを提案する。
誤分類および非分布画素の識別における予測不確実性の有効性と校正に焦点が当てられている。
本研究では,不均衡なデータに対する不確実性-局所-クロス-エントロピー損失を提案し,セグメンテーションの品質とキャリブレーションを継続的に改善する。
論文 参考訳(メタデータ) (2024-05-31T16:32:46Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Improving Viewpoint Robustness for Visual Recognition via Adversarial
Training [26.824940629150362]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
GMVFool が生成する敵対的視点の多様性に基づいて,VIAT は様々な画像分類器の視点ロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-07-21T12:18:35Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。