論文の概要: Mischief: A Simple Black-Box Attack Against Transformer Architectures
- arxiv url: http://arxiv.org/abs/2010.08542v1
- Date: Fri, 16 Oct 2020 17:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:40:20.393412
- Title: Mischief: A Simple Black-Box Attack Against Transformer Architectures
- Title(参考訳): Mischief: トランスフォーマーアーキテクチャに対する単純なブラックボックス攻撃
- Authors: Adrian de Wynter
- Abstract要約: そこで本研究では,言語モデルの現実的な逆例を生成する手法であるMischiefを紹介する。
以上の結果から, テストセットにミシック生成した逆行性サンプルが存在することは, これらのモデルの性能を著しく低下させることが明らかとなった。
また、トレーニングセットに同様の例を含めることで、対向テストセットのベースラインスコアを復元できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mischief, a simple and lightweight method to produce a class of
human-readable, realistic adversarial examples for language models. We perform
exhaustive experimentations of our algorithm on four transformer-based
architectures, across a variety of downstream tasks, as well as under varying
concentrations of said examples. Our findings show that the presence of
Mischief-generated adversarial samples in the test set significantly degrades
(by up to $20\%$) the performance of these models with respect to their
reported baselines. Nonetheless, we also demonstrate that, by including similar
examples in the training set, it is possible to restore the baseline scores on
the adversarial test set. Moreover, for certain tasks, the models trained with
Mischief set show a modest increase on performance with respect to their
original, non-adversarial baseline.
- Abstract(参考訳): 言語モデルのための、可読性のある現実的な逆例のクラスを作成するための、シンプルで軽量な方法である mischief を紹介する。
4つのトランスフォーマーベースのアーキテクチャ、様々な下流タスク、およびそれらの例の集中度に基づいて、アルゴリズムを徹底的に実験する。
以上の結果から,本テストにおける悪質な生成した敵のサンプルの存在は,報告されたベースラインに対して,これらのモデルの性能を著しく低下させる(最大20-%$)ことが判明した。
それにもかかわらず、トレーニングセットに類似の例を含めることで、敵のテストセットのベースラインスコアを復元できることを実証する。
さらに、特定のタスクに対して、Mischiefセットでトレーニングされたモデルは、元の非敵ベースラインに対して、パフォーマンスがわずかに向上することを示している。
関連論文リスト
- Understanding the Robustness of Randomized Feature Defense Against
Query-Based Adversarial Attacks [23.010308600769545]
ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性がある。
モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御法を提案する。
本手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上させる。
論文 参考訳(メタデータ) (2023-10-01T03:53:23Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Improving Gradient-based Adversarial Training for Text Classification by
Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。
本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。
実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文 参考訳(メタデータ) (2021-09-14T09:08:58Z) - Robustness and Generalization via Generative Adversarial Training [21.946687274313177]
本稿では,テストセットとドメイン外サンプルに対するモデルの一般化を同時に改善する手法であるジェネレーティブ・アドバイサル・トレーニングを提案する。
提案手法は、クリーンな画像やドメイン外サンプルのモデルの性能を向上させるだけでなく、予期せぬ攻撃に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2021-09-06T22:34:04Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - On the Benefits of Models with Perceptually-Aligned Gradients [8.427953227125148]
敵攻撃に対する強靭性を示さないモデルにおいても,解釈的かつ知覚的に整合した勾配が存在することを示す。
解釈可能な知覚整合性を持つモデルを活用し、最大摂動境界の低い対角トレーニングがゼロショットおよび弱教師付きローカライゼーションタスクのモデルの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-04T14:05:38Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。