論文の概要: ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2210.12396v1
- Date: Sat, 22 Oct 2022 09:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:03:15.718788
- Title: ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation
- Title(参考訳): ADDMU:データとモデル不確かさ推定による極境界逆例の検出
- Authors: Fan Yin, Yao Li, Cho-Jui Hsieh, Kai-Wei Chang
- Abstract要約: AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
- 参考スコア(独自算出の注目度): 125.52743832477404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial Examples Detection (AED) is a crucial defense technique against
adversarial attacks and has drawn increasing attention from the Natural
Language Processing (NLP) community. Despite the surge of new AED methods, our
studies show that existing methods heavily rely on a shortcut to achieve good
performance. In other words, current search-based adversarial attacks in NLP
stop once model predictions change, and thus most adversarial examples
generated by those attacks are located near model decision boundaries. To
surpass this shortcut and fairly evaluate AED methods, we propose to test AED
methods with \textbf{F}ar \textbf{B}oundary (\textbf{FB}) adversarial examples.
Existing methods show worse than random guess performance under this scenario.
To overcome this limitation, we propose a new technique, \textbf{ADDMU},
\textbf{a}dversary \textbf{d}etection with \textbf{d}ata and \textbf{m}odel
\textbf{u}ncertainty, which combines two types of uncertainty estimation for
both regular and FB adversarial example detection. Our new method outperforms
previous methods by 3.6 and 6.0 \emph{AUC} points under each scenario. Finally,
our analysis shows that the two types of uncertainty provided by \textbf{ADDMU}
can be leveraged to characterize adversarial examples and identify the ones
that contribute most to model's robustness in adversarial training.
- Abstract(参考訳): 敵対的事例検出(AED)は、敵対的攻撃に対する重要な防御手法であり、自然言語処理(NLP)コミュニティから注目を集めている。
新たなAED手法の出現にもかかわらず,本研究は既存の手法が性能向上のためにショートカットに大きく依存していることを示す。
言い換えれば、NLPにおける現在の検索ベースの敵攻撃は、モデル予測が変更されると停止する。
このショートカットを克服し、AED法を適切に評価するために、AED法を \textbf{F}ar \textbf{B}oundary (\textbf{FB}) の逆例で検証することを提案する。
このシナリオでは、既存の手法はランダムな推測性能よりも悪い。
この制限を克服するために、新しい手法である \textbf{ADDMU}, \textbf{a}dversary \textbf{d}etection with \textbf{d}ata と \textbf{m}odel \textbf{u}ncertainty を提案する。
提案手法は,各シナリオで従来の3.6および6.0 \emph{auc}点を上回った。
最後に, 解析の結果から, 対向学習におけるモデルの頑健性に最も寄与する2種類の不確実性は, 対向的な例を特徴付けるために利用できることが示唆された。
関連論文リスト
- Proximal Causal Inference With Text Data [5.796482272333648]
本稿では,2つの前処理テキストデータを用いた因果推論手法を提案し,2つのゼロショットモデルを用いて2つのプロキシを推定し,それらのプロキシを近位g-形式に適用する。
ゼロショット予測のためのMIMIC-IIIおよびオープン大言語モデルを用いた実世界の臨床ノートを用いて, 合成および半合成条件下での手法の評価を行った。
論文 参考訳(メタデータ) (2024-01-12T16:51:02Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - A Unified Wasserstein Distributional Robustness Framework for
Adversarial Training [24.411703133156394]
本稿では、ワッサーシュタイン分布のロバスト性と現在の最先端AT法を結合する統一的なフレームワークを提案する。
我々は、新しいワッサースタインコスト関数と、新しい一連のリスク関数を導入し、標準ATメソッドが我々のフレームワークのそれに対応する特別なケースであることを示す。
この接続は、既存のAT手法の直感的な緩和と一般化をもたらし、分散ロバスト性ATベースのアルゴリズムの新たなファミリーの開発を促進する。
論文 参考訳(メタデータ) (2022-02-27T19:40:29Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Random Projections for Adversarial Attack Detection [8.684378639046644]
敵の攻撃検出は 2つの観点から 根本的な問題です
本稿では,無作為射影の特殊特性を利用して,清潔で敵対的な例の挙動を特徴付ける手法を提案する。
性能評価は私達の技術が($>0.92$ AUC)技術(SOTA)攻撃戦略の競争状態を上回っていることを示します。
論文 参考訳(メタデータ) (2020-12-11T15:02:28Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。