論文の概要: ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints
- arxiv url: http://arxiv.org/abs/2210.03895v1
- Date: Sat, 8 Oct 2022 03:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:04:22.263912
- Title: ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints
- Title(参考訳): ViewFool: 視覚認識のロバスト性の評価
- Authors: Yinpeng Dong, Shouwei Ruan, Hang Su, Caixin Kang, Xingxing Wei, Jun
Zhu
- Abstract要約: 本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
- 参考スコア(独自算出の注目度): 42.64942578228025
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies have demonstrated that visual recognition models lack
robustness to distribution shift. However, current work mainly considers model
robustness to 2D image transformations, leaving viewpoint changes in the 3D
world less explored. In general, viewpoint changes are prevalent in various
real-world applications (e.g., autonomous driving), making it imperative to
evaluate viewpoint robustness. In this paper, we propose a novel method called
ViewFool to find adversarial viewpoints that mislead visual recognition models.
By encoding real-world objects as neural radiance fields (NeRF), ViewFool
characterizes a distribution of diverse adversarial viewpoints under an
entropic regularizer, which helps to handle the fluctuations of the real camera
pose and mitigate the reality gap between the real objects and their neural
representations. Experiments validate that the common image classifiers are
extremely vulnerable to the generated adversarial viewpoints, which also
exhibit high cross-model transferability. Based on ViewFool, we introduce
ImageNet-V, a new out-of-distribution dataset for benchmarking viewpoint
robustness of image classifiers. Evaluation results on 40 classifiers with
diverse architectures, objective functions, and data augmentations reveal a
significant drop in model performance when tested on ImageNet-V, which provides
a possibility to leverage ViewFool as an effective data augmentation strategy
to improve viewpoint robustness.
- Abstract(参考訳): 近年の研究では、視覚認識モデルは分布シフトに対するロバスト性に欠けることが示された。
しかし、現在の研究は主に2次元画像変換に対するモデルロバスト性を考慮しており、3次元世界における視点変化の探索は少ない。
一般に、視点の変化は様々な現実の応用(例えば、自律運転)で見られ、視点の堅牢性を評価することが不可欠である。
本稿では,視覚認識モデルに誤解をもたらす敵の視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界のオブジェクトを神経放射野(neural radiance field, nerf)として符号化することで、viewfoolは、エントロピック・レギュラライザ(entropic regularizer)の下で、さまざまな敵対的視点の分布を特徴付け、実際のカメラのポーズの変動を処理し、実際のオブジェクトとその神経表現との間の現実のギャップを緩和する。
実験は、共通の画像分類器が生成された逆視点に対して極めて脆弱であることを検証する。
viewfoolに基づき、イメージ分類器の視点ロバスト性をベンチマークするための新しい分散データセットであるimagenet-vを導入する。
多様なアーキテクチャ、客観的関数、データ拡張を備えた40の分類器の評価結果から、ImageNet-Vでのテストではモデル性能が大幅に低下し、ビューフールを効果的なデータ拡張戦略として活用し、視点の堅牢性を向上させることが可能になった。
関連論文リスト
- Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Möbius Transform for Mitigating Perspective Distortions in Representation Learning [43.86985901138407]
パースペクティブ歪み(PD)は、画像の形状、大きさ、向き、角度、その他の空間的関係に前例のない変化を引き起こす。
M"オビウス変換の特定の族に対して,パラメータ制御を微粒化することにより,MPDを緩和する手法を提案する。
我々は,この新たなデータセットに対して,ディープラーニングモデルの堅牢性を評価するために,視点的に歪んだベンチマークデータセットであるImageNet-PDを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:39:00Z) - DiG-IN: Diffusion Guidance for Investigating Networks -- Uncovering Classifier Differences Neuron Visualisations and Visual Counterfactual Explanations [35.458709912618176]
ディープラーニングは、ImageNetのような複雑な画像分類タスク、予期せぬ障害モード、例えばスプリアス機能などに大きな進歩をもたらした。
安全クリティカルなタスクでは、その決定のブラックボックスの性質は問題であり、説明や少なくとも意思決定を行う方法が緊急に必要である。
本稿では,これらの問題に対して,ガイド画像生成のためのフレームワークを用いて分類器由来の目的を最適化した画像を生成する。
論文 参考訳(メタデータ) (2023-11-29T17:35:29Z) - Improving Viewpoint Robustness for Visual Recognition via Adversarial
Training [26.824940629150362]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
GMVFool が生成する敵対的視点の多様性に基づいて,VIAT は様々な画像分類器の視点ロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-07-21T12:18:35Z) - Towards Viewpoint-Invariant Visual Recognition via Adversarial Training [28.424131496622497]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
VIATは最小限の最適化問題として定式化され、内部認識は多様な敵の視点を特徴付ける。
一般化性能をさらに向上するため、分散共有戦略を導入する。
論文 参考訳(メタデータ) (2023-07-16T07:55:42Z) - Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。
我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文 参考訳(メタデータ) (2022-05-16T20:23:11Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。