論文の概要: On the human-recognizability phenomenon of adversarially trained deep
image classifiers
- arxiv url: http://arxiv.org/abs/2101.05219v1
- Date: Fri, 18 Dec 2020 17:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:21:12.054094
- Title: On the human-recognizability phenomenon of adversarially trained deep
image classifiers
- Title(参考訳): 逆向き訓練された深部画像分類器の認識可能性現象について
- Authors: Jonathan Helland, Nathan VanHoudnos
- Abstract要約: 堅牢な画像分類器が人間の認識可能な特徴を有する現象を研究する。
特に, 対人訓練における最先端の手法には2つの用語が組み込まれていることを示す。
決定境界の平滑性と向きの結合は、前述の人間認識現象を引き起こすのに十分であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the phenomenon that robust image classifiers
have human-recognizable features -- often referred to as interpretability -- as
revealed through the input gradients of their score functions and their
subsequent adversarial perturbations. In particular, we demonstrate that
state-of-the-art methods for adversarial training incorporate two terms -- one
that orients the decision boundary via minimizing the expected loss, and
another that induces smoothness of the classifier's decision surface by
penalizing the local Lipschitz constant. Through this demonstration, we provide
a unified discussion of gradient and Jacobian-based regularizers that have been
used to encourage adversarial robustness in prior works. Following this
discussion, we give qualitative evidence that the coupling of smoothness and
orientation of the decision boundary is sufficient to induce the aforementioned
human-recognizability phenomenon.
- Abstract(参考訳): 本研究では,頑健な画像分類器が,評価関数の入力勾配とその後の逆方向の摂動を通じて,人間の認識可能な特徴を持つ現象を考察する。
特に,攻撃訓練における最先端の手法は,期待損失を最小化することで決定境界を定式化することと,局所リプシッツ定数をペナルティ化することにより分類器の判断面の滑らかさを誘導することの2つの用語を取り入れている。
この実演を通じて,先行研究における敵対的ロバスト性を促進するために,グラデーションとヤコビアンに基づく正則化の統一的な議論を行う。
この議論の後、我々は、上記の人間認識可能性現象を誘発するには、滑らかさと決定境界の向きの結合が十分であるという定性的証拠を与える。
関連論文リスト
- Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Human-Guided Fair Classification for Natural Language Processing [9.652938946631735]
本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
論文 参考訳(メタデータ) (2022-12-20T10:46:40Z) - Fairness and robustness in anti-causal prediction [73.693135253335]
分散シフトと公平性に対するロバストさは、機械学習モデルに必要な2つの重要なデシラタとして独立に現れている。
これら2つのデシダラタは関連しているように見えるが、実際にはその関連性はしばしば不明である。
この観点から見れば、共通フェアネス基準(分離)とロバストネスの共通概念との明確な関係を描いています。
論文 参考訳(メタデータ) (2022-09-20T02:41:17Z) - Real-centric Consistency Learning for Deepfake Detection [8.313889744011933]
両クラスの不変表現を学習することで深度検出問題に取り組む。
本稿では,潜在世代関連特徴を抽出するための,意味論的ペアリング手法を提案する。
特徴レベルでは、表現空間における自然面の中心に基づいて、潜在的な限界特徴をシミュレートする強正のマイニングと合成法を設計する。
論文 参考訳(メタデータ) (2022-05-15T07:01:28Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Taming Adversarial Robustness via Abstaining [7.1975923901054575]
我々は,観測を逆境によって摂動させることができる二元分類問題を考える。
我々は、予測に対する信頼度が低い場合に、分類器が決定を棄却する断定オプションを含む。
本研究では, 減衰領域の選択方法に関係なく, 両指標のトレードオフが存在することを示した。
論文 参考訳(メタデータ) (2021-04-06T07:36:48Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z) - Metrics and methods for robustness evaluation of neural networks with
generative models [0.07366405857677225]
近年、特にコンピュータビジョンにおいて、研究者たちは回転、明るさの変化、より高レベルな変化などの「自然な」あるいは「意味的な」摂動を発見した。
本稿では,分類器の頑健度を自然な逆数例に測定するための指標と,それらの評価方法を提案する。
論文 参考訳(メタデータ) (2020-03-04T10:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。