論文の概要: Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP
- arxiv url: http://arxiv.org/abs/2001.07820v3
- Date: Mon, 1 Jun 2020 04:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:54:25.388186
- Title: Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP
- Title(参考訳): Elephant in the Room: NLPの逆例を評価するための評価フレームワーク
- Authors: Ying Xu, Xu Zhong, Antonio Jose Jimeno Yepes, Jey Han Lau
- Abstract要約: 逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.661335236627053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An adversarial example is an input transformed by small perturbations that
machine learning models consistently misclassify. While there are a number of
methods proposed to generate adversarial examples for text data, it is not
trivial to assess the quality of these adversarial examples, as minor
perturbations (such as changing a word in a sentence) can lead to a significant
shift in their meaning, readability and classification label. In this paper, we
propose an evaluation framework consisting of a set of automatic evaluation
metrics and human evaluation guidelines, to rigorously assess the quality of
adversarial examples based on the aforementioned properties. We experiment with
six benchmark attacking methods and found that some methods generate
adversarial examples with poor readability and content preservation. We also
learned that multiple factors could influence the attacking performance, such
as the length of the text inputs and architecture of the classifiers.
- Abstract(参考訳): 逆向きの例は、機械学習モデルが一貫して誤分類する小さな摂動によって変換された入力である。
テキストデータの逆例を生成する方法はいくつか提案されているが、これらの逆例の品質を評価することは容易ではない。
そこで本研究では, 自動評価指標と人格評価ガイドラインからなる評価枠組みを提案し, 上記の性質に基づき, 敵例の品質を厳格に評価する。
6つのベンチマーク攻撃法を実験した結果,可読性やコンテンツ保存性に乏しい敵例を生成する方法がいくつか見いだされた。
また,テキスト入力の長さや分類器のアーキテクチャなど,攻撃性能に影響を与える要因が複数あることも確認した。
関連論文リスト
- Using Natural Language Explanations to Rescale Human Judgments [89.21530406247142]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - A Review of Adversarial Attack and Defense for Classification Methods [78.50824774203495]
本稿では,敵対的事例の生成と保護に焦点をあてる。
この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
論文 参考訳(メタデータ) (2021-11-18T22:13:43Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Attacking Text Classifiers via Sentence Rewriting Sampler [12.25764838264699]
general sentence rewriting sampler(srs)フレームワークは、条件付きで有意義な文を生成することができる。
本手法は,意味的類似度と文質を高く保ちつつ,複数の方法で原文を効果的に書き換えることができる。
提案手法は,7つのデータセットのうち4つで攻撃成功率を向上し,7つのデータセットの文質も大幅に向上した。
論文 参考訳(メタデータ) (2021-04-17T05:21:35Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。