論文の概要: Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation
- arxiv url: http://arxiv.org/abs/2412.13705v1
- Date: Wed, 18 Dec 2024 10:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:59.951826
- Title: Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation
- Title(参考訳): ディフェンシブサフィックス生成によるLDMの敵攻撃の軽減
- Authors: Minkyoung Kim, Yunha Kim, Hyeram Seo, Heejung Choi, Jiye Han, Gaeun Kee, Soyoung Ko, HyoJe Jung, Byeolhee Kim, Young-Hak Kim, Sanghyun Park, Tae Joon Jun,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。
勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
- 参考スコア(独自算出の注目度): 2.3080718283523827
- License:
- Abstract: Large language models (LLMs) have exhibited outstanding performance in natural language processing tasks. However, these models remain susceptible to adversarial attacks in which slight input perturbations can lead to harmful or misleading outputs. A gradient-based defensive suffix generation algorithm is designed to bolster the robustness of LLMs. By appending carefully optimized defensive suffixes to input prompts, the algorithm mitigates adversarial influences while preserving the models' utility. To enhance adversarial understanding, a novel total loss function ($L_{\text{total}}$) combining defensive loss ($L_{\text{def}}$) and adversarial loss ($L_{\text{adv}}$) generates defensive suffixes more effectively. Experimental evaluations conducted on open-source LLMs such as Gemma-7B, mistral-7B, Llama2-7B, and Llama2-13B show that the proposed method reduces attack success rates (ASR) by an average of 11\% compared to models without defensive suffixes. Additionally, the perplexity score of Gemma-7B decreased from 6.57 to 3.93 when applying the defensive suffix generated by openELM-270M. Furthermore, TruthfulQA evaluations demonstrate consistent improvements with Truthfulness scores increasing by up to 10\% across tested configurations. This approach significantly enhances the security of LLMs in critical applications without requiring extensive retraining.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
しかし、これらのモデルは、わずかな入力摂動が有害または誤った出力につながる可能性のある敵攻撃の影響を受けやすいままである。
LLMのロバスト性を高めるために,勾配に基づく防御接尾辞生成アルゴリズムを設計した。
入力プロンプトに注意深く最適化された防御接尾辞を付加することにより、アルゴリズムはモデルの実用性を保ちながら敵の影響を緩和する。
敵の理解を高めるために、防御的損失(L_{\text{def}}$)と敵の損失(L_{\text{adv}}$)を組み合わせた新しい総損失関数(L_{\text{total}}$)は、より効果的に防御的接尾辞を生成する。
Gemma-7B, Mistral-7B, Llama2-7B, Llama2-13B などのオープンソース LLM で行った実験の結果, 防御接尾辞のないモデルと比較して, 攻撃成功率 (ASR) を平均 11 % 削減できることがわかった。
さらに, OpenELM-270M による防御接尾辞を施すと, Gemma-7B のパープレキシティスコアが 6.57 から 3.93 に低下した。
さらに、TrathfulQA評価では、テストされた構成間で、Trathfulnessスコアが最大10倍向上する、一貫した改善が示されている。
このアプローチは、大規模な再トレーニングを必要とせずに、重要なアプリケーションにおけるLLMのセキュリティを大幅に向上させる。
関連論文リスト
- GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs [3.967858172081495]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
論文 参考訳(メタデータ) (2024-11-21T00:01:51Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。