論文の概要: Distinguishing Non-natural from Natural Adversarial Samples for More
Robust Pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2203.11199v1
- Date: Sat, 19 Mar 2022 14:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:33:42.247562
- Title: Distinguishing Non-natural from Natural Adversarial Samples for More
Robust Pre-trained Language Model
- Title(参考訳): よりロバストな事前学習言語モデルのための自然対外サンプルからの非自然な識別
- Authors: Jiayi Wang, Rongzhou Bao, Zhuosheng Zhang, Hai Zhao
- Abstract要約: PRLMが失敗する敵のサンプルは、ほとんど自然ではないことが分かり、現実には現れない。
本研究では,より自然対向的なサンプルを用いたPRLMのロバスト性を評価するための異常検出器を提案する。
- 参考スコア(独自算出の注目度): 79.18455635071817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the problem of robustness of pre-trained language models (PrLMs)
has received increasing research interest. Latest studies on adversarial
attacks achieve high attack success rates against PrLMs, claiming that PrLMs
are not robust. However, we find that the adversarial samples that PrLMs fail
are mostly non-natural and do not appear in reality. We question the validity
of current evaluation of robustness of PrLMs based on these non-natural
adversarial samples and propose an anomaly detector to evaluate the robustness
of PrLMs with more natural adversarial samples. We also investigate two
applications of the anomaly detector: (1) In data augmentation, we employ the
anomaly detector to force generating augmented data that are distinguished as
non-natural, which brings larger gains to the accuracy of PrLMs. (2) We apply
the anomaly detector to a defense framework to enhance the robustness of PrLMs.
It can be used to defend all types of attacks and achieves higher accuracy on
both adversarial samples and compliant samples than other defense frameworks.
- Abstract(参考訳): 近年,事前学習言語モデル(PrLM)の堅牢性の問題が研究の関心を集めている。
敵攻撃に関する最近の研究は、PrLMに対して高い攻撃成功率を達成し、PrLMは堅牢ではないと主張している。
しかし、PrLMが失敗する逆のサンプルはほとんど自然ではないことが判明し、実際には現れない。
これらの非自然敵検体に基づくprlmのロバスト性評価の妥当性を疑問視し,より自然敵検体を用いたprlmのロバスト性を評価する異常検出器を提案する。
また, 異常検出装置の2つの応用について検討した。(1)データ拡張において, 非自然と区別される拡張データを強制的に生成するために, 異常検出器を用いることにより, PrLMの精度が向上する。
2)prlmのロバスト性を高めるために,アノマリー検出器を防御枠組みに適用する。
あらゆる種類の攻撃を防御するために使用することができ、他の防御フレームワークよりも敵のサンプルと準拠のサンプルの両方で高い精度を達成する。
関連論文リスト
- Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Sample Attackability in Natural Language Adversarial Attacks [1.4213973379473654]
この研究は、NLP攻撃に対するサンプル攻撃可能性/ロバスト性の定義を正式に拡張した。
2つの人気のあるNLPデータセット、アートモデルの4つの状態、および4つの異なるNLP逆攻撃方法の実験。
論文 参考訳(メタデータ) (2023-06-21T06:20:51Z) - Identifying Adversarially Attackable and Robust Samples [1.4213973379473654]
アドリアックは、入力サンプルに小さな、知覚不能な摂動を挿入し、ディープラーニングモデルの出力に大きな、望ましくない変化を引き起こす。
本研究は, 対人攻撃に最も影響を受けやすいサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。
本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。
論文 参考訳(メタデータ) (2023-01-30T13:58:14Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Closeness and Uncertainty Aware Adversarial Examples Detection in
Adversarial Machine Learning [0.7734726150561088]
敵のサンプルを検出するための2つの異なるメトリクス群の使用法を探索し、評価します。
敵検出のための新機能を導入し、これらの指標のパフォーマンスが使用される攻撃の強さに大きく依存していることを示します。
論文 参考訳(メタデータ) (2020-12-11T14:44:59Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。