論文の概要: Towards Viewpoint-Invariant Visual Recognition via Adversarial Training
- arxiv url: http://arxiv.org/abs/2307.10235v1
- Date: Sun, 16 Jul 2023 07:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:50:16.260055
- Title: Towards Viewpoint-Invariant Visual Recognition via Adversarial Training
- Title(参考訳): 対向訓練による視点不変視覚認識に向けて
- Authors: Shouwei Ruan, Yinpeng Dong, Hang Su, Jianteng Peng, Ning Chen,
Xingxing Wei
- Abstract要約: 画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
VIATは最小限の最適化問題として定式化され、内部認識は多様な敵の視点を特徴付ける。
一般化性能をさらに向上するため、分散共有戦略を導入する。
- 参考スコア(独自算出の注目度): 28.424131496622497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual recognition models are not invariant to viewpoint changes in the 3D
world, as different viewing directions can dramatically affect the predictions
given the same object. Although many efforts have been devoted to making neural
networks invariant to 2D image translations and rotations, viewpoint invariance
is rarely investigated. As most models process images in the perspective view,
it is challenging to impose invariance to 3D viewpoint changes based only on 2D
inputs. Motivated by the success of adversarial training in promoting model
robustness, we propose Viewpoint-Invariant Adversarial Training (VIAT) to
improve viewpoint robustness of common image classifiers. By regarding
viewpoint transformation as an attack, VIAT is formulated as a minimax
optimization problem, where the inner maximization characterizes diverse
adversarial viewpoints by learning a Gaussian mixture distribution based on a
new attack GMVFool, while the outer minimization trains a viewpoint-invariant
classifier by minimizing the expected loss over the worst-case adversarial
viewpoint distributions. To further improve the generalization performance, a
distribution sharing strategy is introduced leveraging the transferability of
adversarial viewpoints across objects. Experiments validate the effectiveness
of VIAT in improving the viewpoint robustness of various image classifiers
based on the diversity of adversarial viewpoints generated by GMVFool.
- Abstract(参考訳): 視覚認識モデルは、3次元の世界における視点変化に不変ではない。
ニューラルネットワークを2次元画像の変換や回転に不変にする試みは数多く行われているが、視点不変性が研究されることはほとんどない。
多くのモデルが視点ビューで画像を処理するため、2次元入力のみに基づいて3次元視点変化に不変性を課すことは困難である。
モデルのロバスト性を促進するための敵意訓練の成功に動機づけられ,共通の画像分類器の視点ロバスト性を改善するために,視点不変な敵意訓練(viat)を提案する。
攻撃としての視点変換に関して、VIATは最小限の最適化問題として定式化され、内最大化は新たな攻撃GMVFoolに基づいてガウス混合分布を学習し、外最小化は最悪の対向的な視点分布に対する期待損失を最小限に抑えて視点不変の分類器を訓練する。
一般化性能をさらに向上するため,オブジェクト間の対向的な視点の伝達性を活用した分散共有戦略を導入した。
GMVFoolによる対角的視点の多様性に基づいて,様々な画像分類器の視点ロバスト性を向上させるためのVIATの有効性を検証する。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Appearance Debiased Gaze Estimation via Stochastic Subject-Wise
Adversarial Learning [33.55397868171977]
外観に基づく視線推定はコンピュータビジョンにおいて注目されており、様々な深層学習技術を用いて顕著な改善が達成されている。
本稿では,被験者の外観を一般化するネットワークを訓練する,SAZE学習という新しい枠組みを提案する。
実験の結果,MPIIGazeデータセットとEyeDiapデータセットの3.89と4.42をそれぞれ達成した。
論文 参考訳(メタデータ) (2024-01-25T00:23:21Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Improving Viewpoint Robustness for Visual Recognition via Adversarial
Training [26.824940629150362]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
GMVFool が生成する敵対的視点の多様性に基づいて,VIAT は様々な画像分類器の視点ロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-07-21T12:18:35Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。