論文の概要: Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP
- arxiv url: http://arxiv.org/abs/2001.07820v3
- Date: Mon, 1 Jun 2020 04:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:54:25.388186
- Title: Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP
- Title(参考訳): Elephant in the Room: NLPの逆例を評価するための評価フレームワーク
- Authors: Ying Xu, Xu Zhong, Antonio Jose Jimeno Yepes, Jey Han Lau
- Abstract要約: 逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.661335236627053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An adversarial example is an input transformed by small perturbations that
machine learning models consistently misclassify. While there are a number of
methods proposed to generate adversarial examples for text data, it is not
trivial to assess the quality of these adversarial examples, as minor
perturbations (such as changing a word in a sentence) can lead to a significant
shift in their meaning, readability and classification label. In this paper, we
propose an evaluation framework consisting of a set of automatic evaluation
metrics and human evaluation guidelines, to rigorously assess the quality of
adversarial examples based on the aforementioned properties. We experiment with
six benchmark attacking methods and found that some methods generate
adversarial examples with poor readability and content preservation. We also
learned that multiple factors could influence the attacking performance, such
as the length of the text inputs and architecture of the classifiers.
- Abstract(参考訳): 逆向きの例は、機械学習モデルが一貫して誤分類する小さな摂動によって変換された入力である。
テキストデータの逆例を生成する方法はいくつか提案されているが、これらの逆例の品質を評価することは容易ではない。
そこで本研究では, 自動評価指標と人格評価ガイドラインからなる評価枠組みを提案し, 上記の性質に基づき, 敵例の品質を厳格に評価する。
6つのベンチマーク攻撃法を実験した結果,可読性やコンテンツ保存性に乏しい敵例を生成する方法がいくつか見いだされた。
また,テキスト入力の長さや分類器のアーキテクチャなど,攻撃性能に影響を与える要因が複数あることも確認した。
関連論文リスト
- The Susceptibility of Example-Based Explainability Methods to Class Outliers [3.748789746936121]
本研究は,ブラックボックス機械学習モデルにおける実例に基づく説明可能性手法の有効性に及ぼすクラスアウトレーヤの影響について検討する。
本稿では,特に実例に基づく手法の正当性や妥当性などの既存の説明可能性評価尺度を改訂し,新しい尺度,識別可能性を導入する。
これらの指標を用いて、クラス外れを抑えようとする者を含む、現在の例に基づく説明可能性手法の欠点を強調した。
論文 参考訳(メタデータ) (2024-07-30T09:20:15Z) - A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers [10.063169009242682]
逆例を生成するために,エンコーダ-デコーダパラフレーズモデルを訓練する。
我々は強化学習アルゴリズムを採用し、制約付き報酬を提案する。
提案手法の主な設計選択が生成した例にどのように影響するかを示し,提案手法の長所と短所について議論する。
論文 参考訳(メタデータ) (2024-05-20T09:33:43Z) - On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - A Review of Adversarial Attack and Defense for Classification Methods [78.50824774203495]
本稿では,敵対的事例の生成と保護に焦点をあてる。
この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
論文 参考訳(メタデータ) (2021-11-18T22:13:43Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。