論文の概要: Improving Viewpoint Robustness for Visual Recognition via Adversarial
Training
- arxiv url: http://arxiv.org/abs/2307.11528v1
- Date: Fri, 21 Jul 2023 12:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 12:44:52.470625
- Title: Improving Viewpoint Robustness for Visual Recognition via Adversarial
Training
- Title(参考訳): 対向訓練による視覚認知のための視点ロバスト性の向上
- Authors: Shouwei Ruan, Yinpeng Dong, Hang Su, Jianteng Peng, Ning Chen, and
Xingxing Wei
- Abstract要約: 画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
GMVFool が生成する敵対的視点の多様性に基づいて,VIAT は様々な画像分類器の視点ロバスト性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 26.824940629150362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Viewpoint invariance remains challenging for visual recognition in the 3D
world, as altering the viewing directions can significantly impact predictions
for the same object. While substantial efforts have been dedicated to making
neural networks invariant to 2D image translations and rotations, viewpoint
invariance is rarely investigated. Motivated by the success of adversarial
training in enhancing model robustness, we propose Viewpoint-Invariant
Adversarial Training (VIAT) to improve the viewpoint robustness of image
classifiers. Regarding viewpoint transformation as an attack, we formulate VIAT
as a minimax optimization problem, where the inner maximization characterizes
diverse adversarial viewpoints by learning a Gaussian mixture distribution
based on the proposed attack method GMVFool. The outer minimization obtains a
viewpoint-invariant classifier by minimizing the expected loss over the
worst-case viewpoint distributions that can share the same one for different
objects within the same category. Based on GMVFool, we contribute a large-scale
dataset called ImageNet-V+ to benchmark viewpoint robustness. Experimental
results show that VIAT significantly improves the viewpoint robustness of
various image classifiers based on the diversity of adversarial viewpoints
generated by GMVFool. Furthermore, we propose ViewRS, a certified viewpoint
robustness method that provides a certified radius and accuracy to demonstrate
the effectiveness of VIAT from the theoretical perspective.
- Abstract(参考訳): 3次元世界における視点不変性は、視方向の変化が同じ物体の予測に大きな影響を及ぼすため、視覚的認識において依然として困難である。
ニューラルネットを2次元画像の翻訳や回転に不変にする試みが盛んに行われているが、視点不変性が研究されることはほとんどない。
モデルのロバスト性向上における敵意訓練の成功に動機づけられ,画像分類器の視点ロバスト性を改善するために,viat(viewer-invariant adversarial training)を提案する。
攻撃としての視点変換について,提案手法であるgmvfoolに基づいてガウス混合分布を学習することにより,内部最大化が多様な敵視点を特徴付けるミニマックス最適化問題としてviatを定式化する。
外部最小化は、同一カテゴリ内の異なる対象に対して同じものを共有できる最悪の視点分布に対する期待損失を最小化することにより、視点不変の分類器を得る。
GMVFoolをベースとしたImageNet-V+と呼ばれる大規模データセットを,視点ロバスト性の評価に貢献する。
実験の結果,gmvfool が生成する敵対的視点の多様性に基づき,viat は様々な画像分類器の視点ロバスト性を大幅に改善した。
さらに, 理論的な視点からviatの有効性を示すために, 半径と精度を認定した, 認定視点ロバストネス手法であるviewrsを提案する。
関連論文リスト
- Appearance Debiased Gaze Estimation via Stochastic Subject-Wise
Adversarial Learning [33.55397868171977]
外観に基づく視線推定はコンピュータビジョンにおいて注目されており、様々な深層学習技術を用いて顕著な改善が達成されている。
本稿では,被験者の外観を一般化するネットワークを訓練する,SAZE学習という新しい枠組みを提案する。
実験の結果,MPIIGazeデータセットとEyeDiapデータセットの3.89と4.42をそれぞれ達成した。
論文 参考訳(メタデータ) (2024-01-25T00:23:21Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。
まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。
トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文 参考訳(メタデータ) (2023-08-17T14:14:28Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Towards Viewpoint-Invariant Visual Recognition via Adversarial Training [28.424131496622497]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
VIATは最小限の最適化問題として定式化され、内部認識は多様な敵の視点を特徴付ける。
一般化性能をさらに向上するため、分散共有戦略を導入する。
論文 参考訳(メタデータ) (2023-07-16T07:55:42Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。