論文の概要: Adversarial Examples Are Not Real Features
- arxiv url: http://arxiv.org/abs/2310.18936v4
- Date: Mon, 6 May 2024 01:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:35:15.993837
- Title: Adversarial Examples Are Not Real Features
- Title(参考訳): 敵の例は本当の特徴ではない
- Authors: Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang,
- Abstract要約: citetilyas 2019adversarialのよく知られた理論は、データの観点から敵の脆弱性を説明する。
我々は、複数の学習パラダイムを取り入れることで、理論をより大きな文脈から再検討する。
- 参考スコア(独自算出の注目度): 55.5802648842869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existence of adversarial examples has been a mystery for years and attracted much interest. A well-known theory by \citet{ilyas2019adversarial} explains adversarial vulnerability from a data perspective by showing that one can extract non-robust features from adversarial examples and these features alone are useful for classification. However, the explanation remains quite counter-intuitive since non-robust features are mostly noise features to humans. In this paper, we re-examine the theory from a larger context by incorporating multiple learning paradigms. Notably, we find that contrary to their good usefulness under supervised learning, non-robust features attain poor usefulness when transferred to other self-supervised learning paradigms, such as contrastive learning, masked image modeling, and diffusion models. It reveals that non-robust features are not really as useful as robust or natural features that enjoy good transferability between these paradigms. Meanwhile, for robustness, we also show that naturally trained encoders from robust features are largely non-robust under AutoAttack. Our cross-paradigm examination suggests that the non-robust features are not really useful but more like paradigm-wise shortcuts, and robust features alone might be insufficient to attain reliable model robustness. Code is available at \url{https://github.com/PKU-ML/AdvNotRealFeatures}.
- Abstract(参考訳): 敵の例の存在は長年の謎であり、多くの関心を集めてきた。
citet{ilyas2019adversarial} のよく知られた理論は、敵対的な例から非破壊的特徴を抽出できることを示し、これらの特徴だけで分類に有用であることを示し、データの観点から敵対的脆弱性を説明する。
しかし、非破壊的な特徴は主に人間にとってのノイズの特徴であるため、この説明はかなり直感的ではない。
本稿では,複数の学習パラダイムを取り入れた理論を,より広い文脈から再検討する。
特に,教師付き学習における有用性とは裏腹に,コントラスト学習やマスク画像モデリング,拡散モデルなど,他の自己教師付き学習パラダイムに移行する際には,非破壊的特徴が有用性に欠けることがわかった。
非破壊的特徴は、これらのパラダイム間で良好な伝達性を持つ堅牢性や自然な特徴ほど有用ではないことが判明した。
一方、ロバスト性については、ロバストな特徴を持つ自然に訓練されたエンコーダがAutoAttackではほとんど損なわれていないことも示している。
我々のパラダイム横断試験は、非破壊機能は実際には有用ではなく、パラダイム的なショートカットに似ており、堅牢な機能だけで信頼性の高いモデルロバスト性を達成するには不十分であることを示している。
コードは \url{https://github.com/PKU-ML/AdvNotRealFeatures} で入手できる。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Non-Robust Features are Not Always Useful in One-Class Classification [19.533796635619613]
機械学習モデルの堅牢性は、敵対的な例の存在によって疑問視されている。
一級分類のための軽量モデルを必要とする実践的応用における敵例の脅威について検討する。
論文 参考訳(メタデータ) (2024-07-08T20:32:19Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Exploring Robust Features for Improving Adversarial Robustness [11.935612873688122]
本研究では, 対向的摂動の影響を受けない頑健な特徴を探索し, モデルの対向的強靭性を改善する。
具体的には、ロバストでない特徴やドメイン固有の特徴からロバストな特徴を分離する機能障害モデルを提案する。
トレーニング済みのドメイン識別器は、クリーンな画像や敵の例から、ほぼ完璧にドメイン固有の特徴を識別することができる。
論文 参考訳(メタデータ) (2023-09-09T00:30:04Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Classification and Adversarial examples in an Overparameterized Linear
Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。
学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。
敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文 参考訳(メタデータ) (2021-09-27T17:35:42Z) - Adversarial Robustness with Non-uniform Perturbations [3.804240190982695]
先行研究は主に、非知覚性の要件を維持するために、機能間で小さな均一なノルムバウンドの摂動で敵対的な例を作ることに重点を置いている。
我々のアプローチは、非一様摂動が現実的な対角的例をより正確に表現する他の領域に適応することができる。
論文 参考訳(メタデータ) (2021-02-24T00:54:43Z) - Adversarial Perturbations Are Not So Weird: Entanglement of Robust and
Non-Robust Features in Neural Network Classifiers [4.511923587827301]
標準的な方法でトレーニングされたニューラルネットワークでは、ロバストでない機能は、小さな"非セマンティック"パターンに反応する。
逆の例は、これらの小さな絡み合ったパターンに対する、最小限の摂動によって形成できます。
論文 参考訳(メタデータ) (2021-02-09T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。