論文の概要: Feature Separation and Recalibration for Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2303.13846v1
- Date: Fri, 24 Mar 2023 07:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:15:53.186325
- Title: Feature Separation and Recalibration for Adversarial Robustness
- Title(参考訳): 対人ロバスト性の特徴分離と再検討
- Authors: Woo Jae Kim, Yoonki Cho, Junsik Jung, Sung-Eui Yoon
- Abstract要約: 本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
- 参考スコア(独自算出の注目度): 18.975320671203132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks are susceptible to adversarial attacks due to the
accumulation of perturbations in the feature level, and numerous works have
boosted model robustness by deactivating the non-robust feature activations
that cause model mispredictions. However, we claim that these malicious
activations still contain discriminative cues and that with recalibration, they
can capture additional useful information for correct model predictions. To
this end, we propose a novel, easy-to-plugin approach named Feature Separation
and Recalibration (FSR) that recalibrates the malicious, non-robust activations
for more robust feature maps through Separation and Recalibration. The
Separation part disentangles the input feature map into the robust feature with
activations that help the model make correct predictions and the non-robust
feature with activations that are responsible for model mispredictions upon
adversarial attack. The Recalibration part then adjusts the non-robust
activations to restore the potentially useful cues for model predictions.
Extensive experiments verify the superiority of FSR compared to traditional
deactivation techniques and demonstrate that it improves the robustness of
existing adversarial training methods by up to 8.57% with small computational
overhead. Codes are available at https://github.com/wkim97/FSR.
- Abstract(参考訳): 深いニューラルネットワークは、特徴レベルの摂動の蓄積による敵対的攻撃の影響を受けやすく、多くの研究がモデル誤予測を引き起こす非破壊的特徴アクティベーションを非活性化することによってモデルの堅牢性を高めている。
しかし、これらの悪意あるアクティベーションは依然として識別的手がかりを含んでおり、再校正によってモデルの正しい予測のために追加の有用な情報を捉えることができると主張している。
そこで本研究では,より堅牢な特徴マップに対して,悪意のある非ロバストアクティベーションを分離と再調整によって再結合する機能分離再調整(fsr)という新しい手法を提案する。
分離部は、入力特徴マップを、モデルが正しい予測を行うのに役立つアクティベーション付きロバスト特徴と、敵の攻撃時にモデル予測の誤りの原因となるアクティベーションとで区別する。
Recalibration部は、モデル予測のための潜在的に有用なキューを復元するために、非ロバストなアクティベーションを調整する。
大規模な実験は、従来の非活性化技術と比較してFSRの優位性を検証し、計算オーバーヘッドを小さくして8.57%まで向上することを示した。
コードはhttps://github.com/wkim97/fsrで入手できる。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.50500608175905]
畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:30Z) - Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression [12.44857030152608]
ディープニューラルネットワークは、高リスクアプリケーションにおいて致命的な結果をもたらす可能性のあるトレーニングデータにおいて、学習と急激な相関に依存する傾向があります。
余剰訓練を伴わずにポストホックに適用できる有害な特徴に対するモデル依存を抑制するための様々なアプローチが提案されている。
本稿では,モデル由来の知識とeXplainable Artificial Intelligence(XAI)の洞察に基づくリアクティブアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-15T09:16:49Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Exploring Robust Features for Improving Adversarial Robustness [11.935612873688122]
本研究では, 対向的摂動の影響を受けない頑健な特徴を探索し, モデルの対向的強靭性を改善する。
具体的には、ロバストでない特徴やドメイン固有の特徴からロバストな特徴を分離する機能障害モデルを提案する。
トレーニング済みのドメイン識別器は、クリーンな画像や敵の例から、ほぼ完璧にドメイン固有の特徴を識別することができる。
論文 参考訳(メタデータ) (2023-09-09T00:30:04Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。