論文の概要: Feature Separation and Recalibration for Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2303.13846v1
- Date: Fri, 24 Mar 2023 07:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:15:53.186325
- Title: Feature Separation and Recalibration for Adversarial Robustness
- Title(参考訳): 対人ロバスト性の特徴分離と再検討
- Authors: Woo Jae Kim, Yoonki Cho, Junsik Jung, Sung-Eui Yoon
- Abstract要約: 本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
- 参考スコア(独自算出の注目度): 18.975320671203132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks are susceptible to adversarial attacks due to the
accumulation of perturbations in the feature level, and numerous works have
boosted model robustness by deactivating the non-robust feature activations
that cause model mispredictions. However, we claim that these malicious
activations still contain discriminative cues and that with recalibration, they
can capture additional useful information for correct model predictions. To
this end, we propose a novel, easy-to-plugin approach named Feature Separation
and Recalibration (FSR) that recalibrates the malicious, non-robust activations
for more robust feature maps through Separation and Recalibration. The
Separation part disentangles the input feature map into the robust feature with
activations that help the model make correct predictions and the non-robust
feature with activations that are responsible for model mispredictions upon
adversarial attack. The Recalibration part then adjusts the non-robust
activations to restore the potentially useful cues for model predictions.
Extensive experiments verify the superiority of FSR compared to traditional
deactivation techniques and demonstrate that it improves the robustness of
existing adversarial training methods by up to 8.57% with small computational
overhead. Codes are available at https://github.com/wkim97/FSR.
- Abstract(参考訳): 深いニューラルネットワークは、特徴レベルの摂動の蓄積による敵対的攻撃の影響を受けやすく、多くの研究がモデル誤予測を引き起こす非破壊的特徴アクティベーションを非活性化することによってモデルの堅牢性を高めている。
しかし、これらの悪意あるアクティベーションは依然として識別的手がかりを含んでおり、再校正によってモデルの正しい予測のために追加の有用な情報を捉えることができると主張している。
そこで本研究では,より堅牢な特徴マップに対して,悪意のある非ロバストアクティベーションを分離と再調整によって再結合する機能分離再調整(fsr)という新しい手法を提案する。
分離部は、入力特徴マップを、モデルが正しい予測を行うのに役立つアクティベーション付きロバスト特徴と、敵の攻撃時にモデル予測の誤りの原因となるアクティベーションとで区別する。
Recalibration部は、モデル予測のための潜在的に有用なキューを復元するために、非ロバストなアクティベーションを調整する。
大規模な実験は、従来の非活性化技術と比較してFSRの優位性を検証し、計算オーバーヘッドを小さくして8.57%まで向上することを示した。
コードはhttps://github.com/wkim97/fsrで入手できる。
関連論文リスト
- Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - On the Onset of Robust Overfitting in Adversarial Training [66.27055915739331]
Adversarial Training (AT)は、堅牢なニューラルネットワークを構築するために広く使われているアルゴリズムである。
ATは、堅牢なオーバーフィッティングの問題に悩まされているが、その基本的なメカニズムはまだ不明だ。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Exploring Robust Features for Improving Adversarial Robustness [11.935612873688122]
本研究では, 対向的摂動の影響を受けない頑健な特徴を探索し, モデルの対向的強靭性を改善する。
具体的には、ロバストでない特徴やドメイン固有の特徴からロバストな特徴を分離する機能障害モデルを提案する。
トレーニング済みのドメイン識別器は、クリーンな画像や敵の例から、ほぼ完璧にドメイン固有の特徴を識別することができる。
論文 参考訳(メタデータ) (2023-09-09T00:30:04Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Unifying Model Explainability and Robustness for Joint Text
Classification and Rationale Extraction [11.878012909876713]
そこで我々は,AT-BMCという共同分類と合理的抽出モデルを提案する。
混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。
ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-20T09:48:32Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D
Models [3.9962751777898955]
ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者がターゲットとしている。
非連続的深層モデルは、いまだに敵対的な攻撃に対して頑健ではない。
本稿では,特徴を特定のマージン下に置くことによって予測を容易にする新しい目的/損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-08T20:51:43Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。