論文の概要: BERT Lost Patience Won't Be Robust to Adversarial Slowdown
- arxiv url: http://arxiv.org/abs/2310.19152v2
- Date: Tue, 31 Oct 2023 04:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 10:12:25.926610
- Title: BERT Lost Patience Won't Be Robust to Adversarial Slowdown
- Title(参考訳): BERTが失ったパテントは、逆行の減速にロバストにはならない
- Authors: Zachary Coalson, Gabriel Ritter, Rakesh Bobba, Sanghyun Hong
- Abstract要約: 我々は,マルチエクイット言語モデルの対向性低下に対するロバスト性を評価する。
メカニズムが複雑になればなるほど、敵の減速がより脆弱になる。
敵の訓練は我々のスローダウン攻撃を倒すには効果がないが、ChatGPTのような会話モデルによる入力衛生は摂動を効果的に除去することができる。
- 参考スコア(独自算出の注目度): 3.8142862565060067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we systematically evaluate the robustness of multi-exit
language models against adversarial slowdown. To audit their robustness, we
design a slowdown attack that generates natural adversarial text bypassing
early-exit points. We use the resulting WAFFLE attack as a vehicle to conduct a
comprehensive evaluation of three multi-exit mechanisms with the GLUE benchmark
against adversarial slowdown. We then show our attack significantly reduces the
computational savings provided by the three methods in both white-box and
black-box settings. The more complex a mechanism is, the more vulnerable it is
to adversarial slowdown. We also perform a linguistic analysis of the perturbed
text inputs, identifying common perturbation patterns that our attack
generates, and comparing them with standard adversarial text attacks. Moreover,
we show that adversarial training is ineffective in defeating our slowdown
attack, but input sanitization with a conversational model, e.g., ChatGPT, can
remove perturbations effectively. This result suggests that future work is
needed for developing efficient yet robust multi-exit models. Our code is
available at: https://github.com/ztcoalson/WAFFLE
- Abstract(参考訳): 本稿では,マルチエクイット言語モデルの対向的減速に対する頑健さを体系的に評価する。
その頑健さを監査するため,早退点をバイパスする自然な逆テキストを生成するスローダウン攻撃を設計する。
結果, WAFFLE 攻撃を車体として, GLUE ベンチマークを用いた3つのマルチエクイット機構の総合的な評価を行う。
この攻撃により, ホワイトボックス設定とブラックボックス設定の3つの手法により, 計算コストを大幅に削減できることを示す。
メカニズムが複雑になればなるほど、敵の減速がより脆弱になる。
また、摂動テキスト入力の言語学的解析を行い、攻撃が生み出す共通の摂動パターンを特定し、標準的な敵対的テキスト攻撃と比較する。
さらに,攻撃速度を低下させるには逆行訓練が有効でないことを示すが,ChatGPTのような会話モデルによる入力衛生は摂動を効果的に除去することができる。
この結果は、効率的で堅牢なマルチエクイットモデルを開発するために将来の作業が必要であることを示唆している。
私たちのコードは、https://github.com/ztcoalson/WAFFLEで利用可能です。
関連論文リスト
- Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z) - A Word is Worth A Thousand Dollars: Adversarial Attack on Tweets Fools
Stock Prediction [100.9772316028191]
本稿では,3つのストック予測犠牲者モデルを騙すために,様々な攻撃構成を試行する。
以上の結果から,提案手法が一貫した成功率を達成し,取引シミュレーションにおいて大きな損失をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-01T05:12:22Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。