論文の概要: Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries
- arxiv url: http://arxiv.org/abs/2209.06931v1
- Date: Wed, 14 Sep 2022 21:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:51:47.899516
- Title: Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries
- Title(参考訳): robust transferable feature extractors: 事前訓練されたネットワークをホワイトボックスの敵から守るための学習
- Authors: Alexander Cann, Ian Colbert, Ihab Amer
- Abstract要約: また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
- 参考スコア(独自算出の注目度): 69.53730499849023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of deep neural networks in computer vision
applications has brought forth a significant interest in adversarial
robustness. Existing research has shown that maliciously perturbed inputs
specifically tailored for a given model (i.e., adversarial examples) can be
successfully transferred to another independently trained model to induce
prediction errors. Moreover, this property of adversarial examples has been
attributed to features derived from predictive patterns in the data
distribution. Thus, we are motivated to investigate the following question: Can
adversarial defenses, like adversarial examples, be successfully transferred to
other independently trained models? To this end, we propose a deep
learning-based pre-processing mechanism, which we refer to as a robust
transferable feature extractor (RTFE). After examining theoretical motivation
and implications, we experimentally show that our method can provide
adversarial robustness to multiple independently pre-trained classifiers that
are otherwise ineffective against an adaptive white box adversary. Furthermore,
we show that RTFEs can even provide one-shot adversarial robustness to models
independently trained on different datasets.
- Abstract(参考訳): コンピュータビジョンアプリケーションにおけるディープニューラルネットワークの広範な採用は、敵対的ロバスト性に大きな関心をもたらした。
既存の研究では、特定のモデル(例えば逆例)用に特別に調整された悪質な摂動入力は、予測エラーを誘発するために別の独立した訓練されたモデルにうまく転送できることが示されている。
さらに、この逆例の特性は、データ分布の予測パターンから派生した特徴に起因している。
敵の防御(adversarial defense)は、敵の例のように、他の独立した訓練されたモデルにうまく移行できるか?
そこで本研究では,ロバストな特徴抽出器(rtfe)と呼ぶ深層学習に基づく前処理機構を提案する。
理論的な動機と意味を検証した結果,本手法は適応型ホワイトボックス敵に対して有効ではない複数の個別学習済み分類器に対して,逆ロバスト性を提供することができることを実験的に示した。
さらに、RTFEは、異なるデータセットで個別に訓練されたモデルに対して、ワンショットの対逆ロバスト性を提供できることを示す。
関連論文リスト
- Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。
本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文 参考訳(メタデータ) (2024-10-11T03:59:49Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - CT-GAT: Cross-Task Generative Adversarial Attack based on
Transferability [24.272384832200522]
本稿では,様々なタスクにまたがる伝達可能な特徴を抽出して,直接対逆例を構築する手法を提案する。
具体的には,複数のタスクから収集した対数サンプルデータを用いて,CT-GATというシーケンス対シーケンス生成モデルを訓練し,普遍的対数特徴を得る。
その結果,本手法は低コストで優れた攻撃性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-10-22T11:00:04Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Understanding the Logit Distributions of Adversarially-Trained Deep
Neural Networks [6.439477789066243]
敵の防御は、敵の攻撃による入力摂動に不変であるように、ディープニューラルネットワークを訓練する。
敵の攻撃を緩和するためには敵の訓練が成功しているが、敵の訓練を受けた(AT)モデルと標準モデルとの行動的差異はいまだに理解されていない。
対向性学習に不可欠な3つのロジット特性を同定する。
論文 参考訳(メタデータ) (2021-08-26T19:09:15Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - TREND: Transferability based Robust ENsemble Design [6.663641564969944]
本稿では, ネットワークアーキテクチャ, 入力, 重量, アクティベーションの量子化が, 対向サンプルの転送性に及ぼす影響について検討する。
本研究では,ソースとターゲット間の入力量子化によってトランスファービリティが著しく阻害されていることを示す。
我々は、これに対抗するために、新しい最先端のアンサンブル攻撃を提案する。
論文 参考訳(メタデータ) (2020-08-04T13:38:14Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。