論文の概要: Distilling Robust and Non-Robust Features in Adversarial Examples by
Information Bottleneck
- arxiv url: http://arxiv.org/abs/2204.02735v1
- Date: Wed, 6 Apr 2022 11:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:56:25.240128
- Title: Distilling Robust and Non-Robust Features in Adversarial Examples by
Information Bottleneck
- Title(参考訳): 情報ボトルネックによる逆行例におけるロバスト・非ロバスト特徴の蒸留
- Authors: Junho Kim, Byung-Kwan Lee, Yong Man Ro
- Abstract要約: 本稿では,Information Bottleneckを用いて,特徴表現をロバストかつ非ロバストな特徴に明示的に蒸留する方法を提案する。
本研究は, 蒸留した特徴が敵の予測と強く相関していることを示し, それらが自己認識可能な意味情報を持っていることを示した。
本稿では, モデル予測に直接関係する非破壊的特徴の勾配を増大させる攻撃機構を提案し, 破壊モデルロバスト性の有効性を検証した。
- 参考スコア(独自算出の注目度): 33.18197518590706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial examples, generated by carefully crafted perturbation, have
attracted considerable attention in research fields. Recent works have argued
that the existence of the robust and non-robust features is a primary cause of
the adversarial examples, and investigated their internal interactions in the
feature space. In this paper, we propose a way of explicitly distilling feature
representation into the robust and non-robust features, using Information
Bottleneck. Specifically, we inject noise variation to each feature unit and
evaluate the information flow in the feature representation to dichotomize
feature units either robust or non-robust, based on the noise variation
magnitude. Through comprehensive experiments, we demonstrate that the distilled
features are highly correlated with adversarial prediction, and they have
human-perceptible semantic information by themselves. Furthermore, we present
an attack mechanism intensifying the gradient of non-robust features that is
directly related to the model prediction, and validate its effectiveness of
breaking model robustness.
- Abstract(参考訳): 注意深い摂動によって生じる敵の例は、研究分野でかなりの注目を集めている。
近年の研究では、ロバストな特徴と非破壊的な特徴の存在が敵の例の主な原因であると主張し、特徴空間におけるそれらの内部相互作用を調査している。
本稿では,Information Bottleneckを用いて,特徴表現をロバストかつ非ロバストな特徴に明示的に蒸留する方法を提案する。
具体的には,各特徴単位に雑音変動を注入し,特徴表現における情報フローを評価し,特徴単位をロバストまたは非ロバストのいずれかに分割する。
包括的実験により, 蒸留した特徴は, 対向予測と高い相関関係にあり, 自己認識可能な意味情報を持つことを示した。
さらに, モデル予測に直接関係する非破壊的特徴の勾配を増大させる攻撃機構を提案し, 破壊モデルロバスト性の有効性を検証した。
関連論文リスト
- Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density [93.32594873253534]
信頼できる機械学習は、非ロバストな特徴に依存するモデルの厳密な規制を必要とする。
本稿では,モデル予測を入力に関連付けることによって,そのような特徴を記述・規制するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T09:16:56Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Unveiling the Potential of Probabilistic Embeddings in Self-Supervised
Learning [4.124934010794795]
自己教師付き学習は、ラベルのないデータから意味のある表現をモデルが取得できるようにすることで、機械学習を前進させる上で重要な役割を担っている。
本稿では,情報ボトルネックに対する確率的モデリングの影響について検討し,情報圧縮と情報保存のトレードオフについて述べる。
以上の結果から,損失空間に新たなボトルネックを導入することにより,アウト・オブ・ディストリビューションの事例を検出する能力が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-10-27T12:01:16Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Exploring Robust Features for Improving Adversarial Robustness [11.935612873688122]
本研究では, 対向的摂動の影響を受けない頑健な特徴を探索し, モデルの対向的強靭性を改善する。
具体的には、ロバストでない特徴やドメイン固有の特徴からロバストな特徴を分離する機能障害モデルを提案する。
トレーニング済みのドメイン識別器は、クリーンな画像や敵の例から、ほぼ完璧にドメイン固有の特徴を識別することができる。
論文 参考訳(メタデータ) (2023-09-09T00:30:04Z) - On the Robustness of Removal-Based Feature Attributions [17.679374058425346]
我々は、除去に基づく特徴属性のロバスト性の特性を理論的に特徴づける。
具体的には、このような手法を統一的に分析し、無害な帰属と摂動した帰属の差について上界を導出する。
合成および実世界のデータによる結果から理論的結果が検証され,その実用的意義が実証された。
論文 参考訳(メタデータ) (2023-06-12T23:33:13Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - Removing Spurious Features can Hurt Accuracy and Affect Groups
Disproportionately [83.68135652247496]
自然な修正は、モデルからスプリアスな特徴を取り除くことである。
誘導バイアスによる突発的特徴の除去は精度を低下させる可能性が示唆された。
また,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示した。
論文 参考訳(メタデータ) (2020-12-07T23:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。