論文の概要: Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation
- arxiv url: http://arxiv.org/abs/2203.01677v1
- Date: Thu, 3 Mar 2022 12:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 00:31:38.657193
- Title: Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation
- Title(参考訳): テキスト分類における単語逆例の検出:ロバスト密度推定によるベンチマークとベースライン
- Authors: KiYoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwak
- Abstract要約: 4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。
我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
- 参考スコア(独自算出の注目度): 33.46393193123221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word-level adversarial attacks have shown success in NLP models, drastically
decreasing the performance of transformer-based models in recent years. As a
countermeasure, adversarial defense has been explored, but relatively few
efforts have been made to detect adversarial examples. However, detecting
adversarial examples may be crucial for automated tasks (e.g. review sentiment
analysis) that wish to amass information about a certain population and
additionally be a step towards a robust defense system. To this end, we release
a dataset for four popular attack methods on four datasets and four models to
encourage further research in this field. Along with it, we propose a
competitive baseline based on density estimation that has the highest AUC on 29
out of 30 dataset-attack-model combinations. Source code is available in
https://github.com/anoymous92874838/text-adv-detection.
- Abstract(参考訳): 単語レベルの敵対攻撃はNLPモデルで成功し、近年はトランスフォーマーモデルの性能が大幅に低下している。
対策として、敵の防御が検討されているが、敵の例を検出するための努力は比較的少ない。
しかし、敵対的な例を検出することは、特定の集団に関する情報を蓄積し、さらに強固な防衛システムへの一歩を踏み出そうとする自動化タスク(例えば感情分析をレビューする)に不可欠である。
この目的のために、4つのデータセットと4つのモデルに対する4つの一般的な攻撃方法のためのデータセットをリリースし、この分野のさらなる研究を促進する。
さらに,30のデータセット-アタックモデルの組み合わせのうち,29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
ソースコードはhttps://github.com/anoymous92874838/text-adv-detectionで入手できる。
関連論文リスト
- Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - Adversarial Attacks Neutralization via Data Set Randomization [3.655021726150369]
ディープラーニングモデルに対する敵対的な攻撃は、信頼性とセキュリティに深刻な脅威をもたらす。
本稿では,超空間射影に根ざした新しい防御機構を提案する。
提案手法は,敵対的攻撃に対するディープラーニングモデルの堅牢性を高めていることを示す。
論文 参考訳(メタデータ) (2023-06-21T10:17:55Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - BERT is Robust! A Case Against Synonym-Based Adversarial Examples in
Text Classification [8.072745157605777]
BERTに対する4つの単語置換に基づく攻撃について検討する。
彼らの成功は主に、貧弱なデータをモデルに供給することに基づいている。
追加の処理後ステップは、最先端攻撃の成功率を5%以下に下げる。
論文 参考訳(メタデータ) (2021-09-15T16:15:16Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。