論文の概要: Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models
- arxiv url: http://arxiv.org/abs/2111.02840v1
- Date: Thu, 4 Nov 2021 12:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 14:41:31.149029
- Title: Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models
- Title(参考訳): Adversarial GLUE: 言語モデルのロバストネス評価のためのマルチタスクベンチマーク
- Authors: Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng
Gao, Ahmed Hassan Awadallah, Bo Li
- Abstract要約: AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
- 参考スコア(独自算出の注目度): 86.02610674750345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained language models have achieved tremendous success
across a wide range of natural language understanding (NLU) tasks, even
surpassing human performance. However, recent studies reveal that the
robustness of these models can be challenged by carefully crafted textual
adversarial examples. While several individual datasets have been proposed to
evaluate model robustness, a principled and comprehensive benchmark is still
missing. In this paper, we present Adversarial GLUE (AdvGLUE), a new multi-task
benchmark to quantitatively and thoroughly explore and evaluate the
vulnerabilities of modern large-scale language models under various types of
adversarial attacks. In particular, we systematically apply 14 textual
adversarial attack methods to GLUE tasks to construct AdvGLUE, which is further
validated by humans for reliable annotations. Our findings are summarized as
follows. (i) Most existing adversarial attack algorithms are prone to
generating invalid or ambiguous adversarial examples, with around 90% of them
either changing the original semantic meanings or misleading human annotators
as well. Therefore, we perform a careful filtering process to curate a
high-quality benchmark. (ii) All the language models and robust training
methods we tested perform poorly on AdvGLUE, with scores lagging far behind the
benign accuracy. We hope our work will motivate the development of new
adversarial attacks that are more stealthy and semantic-preserving, as well as
new robust language models against sophisticated adversarial attacks. AdvGLUE
is available at https://adversarialglue.github.io.
- Abstract(参考訳): 大規模な事前学習型言語モデルは、人間のパフォーマンスを超えながら、幅広い自然言語理解(NLU)タスクで大きな成功を収めている。
しかし、近年の研究により、これらのモデルの頑健性は、注意深く構築されたテキスト対逆例によって挑戦できることが明らかとなった。
モデルロバスト性を評価するために、いくつかの個別データセットが提案されているが、原則的で包括的なベンチマークはまだ欠落している。
本稿では,様々な種類の敵攻撃下での現代の大規模言語モデルの脆弱性を定量的かつ徹底的に調査し,評価するマルチタスク・ベンチマークであるAdvGLUEを提案する。
特に,14のテクスト的敵対的攻撃手法をタスクを結合してadvglueを構築し,さらに人間が信頼できるアノテーションを検証した。
我々の発見は次のように要約される。
(i)既存の敵攻撃アルゴリズムのほとんどは、無効または曖昧な敵の例を生成する傾向があり、その約90%は、本来の意味的意味を変えるか、人間の注釈を誤解させるものである。
そこで我々は,高品質なベンチマークをキュレートするために,慎重にフィルタリング処理を行う。
(ii)テストした言語モデルとロバストなトレーニングメソッドはすべて、AdvGLUEではパフォーマンスが悪く、スコアは良識の精度よりもはるかに遅れています。
我々の研究は、よりステルス的でセマンティックな新しい敵攻撃と、高度な敵攻撃に対する新しい堅牢な言語モデルの開発を動機付けることを願っている。
advglueはhttps://adversarialglue.github.ioで入手できる。
関連論文リスト
- A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。
トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。
2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-16T10:14:27Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。
具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。
実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文 参考訳(メタデータ) (2023-09-16T14:04:23Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。