論文の概要: Do Counterfactual Examples Complicate Adversarial Training?
- arxiv url: http://arxiv.org/abs/2404.10588v2
- Date: Wed, 17 Apr 2024 12:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 12:36:56.367626
- Title: Do Counterfactual Examples Complicate Adversarial Training?
- Title(参考訳): 対実例は対人訓練を複雑にするか?
- Authors: Eric Yeats, Cameron Darwin, Eduardo Ortega, Frank Liu, Hai Li,
- Abstract要約: 我々は拡散モデルを利用して、ロバスト分類器の堅牢性と性能のトレードオフを研究する。
提案手法は,低ノルム対実例(CE)を生成する。
クリーントレーニングデータに対するロバストモデルの信頼性と精度は、CEにデータが近接していることと関連していると報告する。
- 参考スコア(独自算出の注目度): 6.264110093518783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We leverage diffusion models to study the robustness-performance tradeoff of robust classifiers. Our approach introduces a simple, pretrained diffusion method to generate low-norm counterfactual examples (CEs): semantically altered data which results in different true class membership. We report that the confidence and accuracy of robust models on their clean training data are associated with the proximity of the data to their CEs. Moreover, robust models perform very poorly when evaluated on the CEs directly, as they become increasingly invariant to the low-norm, semantic changes brought by CEs. The results indicate a significant overlap between non-robust and semantic features, countering the common assumption that non-robust features are not interpretable.
- Abstract(参考訳): 我々は拡散モデルを利用して、ロバスト分類器の堅牢性と性能のトレードオフを研究する。
提案手法では,低ノルム対実例(CE)を生成するための,単純で事前訓練された拡散法を導入している。
クリーントレーニングデータに対するロバストモデルの信頼性と精度は、CEにデータが近接していることと関連していると報告する。
さらに、ロバストモデルは、CEがもたらす低ノルムな意味的変化にますます不変になるにつれて、CE上で直接評価すると、非常に性能が劣る。
その結果,非破壊的特徴と意味的特徴の重なりが強く,非破壊的特徴が解釈できないという一般的な仮定に反することが明らかとなった。
関連論文リスト
- Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning [37.21211404608413]
本稿では,意味的かつ解釈可能な表現の作成を監督するために,EMG PRにおける深層メートル法メタラーニングへのシフトを提案する。
我々は、不正確な決定をよりよく拒否する頑健なクラス近接性に基づく信頼度推定器を導出する。
論文 参考訳(メタデータ) (2024-04-17T23:37:50Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Robustness to Spurious Correlations in Text Classification via
Automatically Generated Counterfactuals [8.827892752465958]
自動生成された反実データを用いてトレーニングデータを増強し、堅牢なテキスト分類器のトレーニングを提案する。
因果的特徴を強調し,非因果的特徴を強調することで,ロバスト分類器は有意義で信頼性の高い予測を行うことを示す。
論文 参考訳(メタデータ) (2020-12-18T03:57:32Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Variational Encoder-based Reliable Classification [5.161531917413708]
本稿では,トレーニングデータセットと再建の質を用いて,その信念の正当性を証明できる疫学(EC)を提案する。
提案手法は,意味的に意味のある低次元空間を識別できる変分オートエンコーダに基づく。
その結果, 予測の信頼性が向上し, 対向攻撃を伴う試料の堅牢な同定が可能となった。
論文 参考訳(メタデータ) (2020-02-19T17:05:32Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。