論文の概要: Adversarial Evasion Attack Efficiency against Large Language Models
- arxiv url: http://arxiv.org/abs/2406.08050v1
- Date: Wed, 12 Jun 2024 10:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:34:43.150811
- Title: Adversarial Evasion Attack Efficiency against Large Language Models
- Title(参考訳): 大規模言語モデルに対する敵対的侵入攻撃効率
- Authors: João Vitorino, Eva Maia, Isabel Praça,
- Abstract要約: 大規模言語モデル(LLM)はテキスト分類に有用であるが、その脆弱性は無視されるべきではない。
本研究は,5種類のLDMに対する3種類の敵攻撃の有効性,効率,実用性について分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are valuable for text classification, but their vulnerabilities must not be disregarded. They lack robustness against adversarial examples, so it is pertinent to understand the impacts of different types of perturbations, and assess if those attacks could be replicated by common users with a small amount of perturbations and a small number of queries to a deployed LLM. This work presents an analysis of the effectiveness, efficiency, and practicality of three different types of adversarial attacks against five different LLMs in a sentiment classification task. The obtained results demonstrated the very distinct impacts of the word-level and character-level attacks. The word attacks were more effective, but the character and more constrained attacks were more practical and required a reduced number of perturbations and queries. These differences need to be considered during the development of adversarial defense strategies to train more robust LLMs for intelligent text classification applications.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト分類に有用であるが、その脆弱性は無視されるべきではない。
敵の例に対する堅牢性は欠如しているため、異なる種類の摂動の影響を理解し、それらの攻撃が、少量の摂動と少量のクエリを持つ一般ユーザによって、デプロイされたLLMに対して複製可能かどうかを評価することが重要である。
本研究は、感情分類課題における5種類のLDMに対する3種類の敵攻撃の有効性、効率、実用性について分析した。
その結果,単語レベルの攻撃と文字レベルの攻撃とは全く異なる影響が示された。
単語攻撃はより効果的であったが、文字や制約のある攻撃はより実用的であり、摂動とクエリの減少を必要とした。
これらの違いは、知的テキスト分類アプリケーションのためにより堅牢なLLMを訓練するための敵防衛戦略の開発中に考慮する必要がある。
関連論文リスト
- Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models [6.854732863866882]
音声感情認識(SER)は近年,様々な分野に応用される可能性から,常に注目を集めている。
近年の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。
論文 参考訳(メタデータ) (2024-04-29T09:00:32Z) - Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Adversarial Evasion Attacks Practicality in Networks: Testing the Impact of Dynamic Learning [1.6574413179773757]
敵攻撃は、MLモデルを騙して欠陥予測を生成することを目的としている。
敵攻撃はMLベースのNIDSを妥協する。
本実験は, 対人訓練を伴わない継続的再訓練は, 対人攻撃の有効性を低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T18:32:08Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。