Fugu-MT 論文翻訳(概要): Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks

論文の概要: Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks

arxiv url: http://arxiv.org/abs/2401.17263v2
Date: Fri, 2 Feb 2024 21:18:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 02:30:25.887513
Title: Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks
Title（参考訳）: 脱獄攻撃に対する言語モデルのロバストプロンプト最適化
Authors: Andy Zhou and Bo Li and Haohan Wang
Abstract要約: 本稿では,脱獄攻撃から言語モデルを守るための最初の敵対的目標を提案する。厳密なプロンプト最適化(RPO)アルゴリズムは、無害な出力を強制するために勾配ベースのトークン最適化を使用する。 RPOは良性使用に小さな影響を与え、適応攻撃で成功し、ブラックボックスモデルに移行することができる。
参考スコア（独自算出の注目度）: 19.364674417165908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite advances in AI alignment, language models (LM) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries modify input prompts to induce harmful behavior. While some defenses have been proposed, they focus on narrow threat models and fall short of a strong defense, which we posit should be effective, universal, and practical. To achieve this, we propose the first adversarial objective for defending LMs against jailbreaking attacks and an algorithm, robust prompt optimization (RPO), that uses gradient-based token optimization to enforce harmless outputs. This results in an easily accessible suffix that significantly improves robustness to both jailbreaks seen during optimization and unknown, held-out jailbreaks, reducing the attack success rate on Starling-7B from 84% to 8.66% across 20 jailbreaks. In addition, we find that RPO has a minor effect on benign use, is successful under adaptive attacks, and can transfer to black-box models, reducing the success rate of the strongest attack on GPT-4, GUARD, from 92% to 6%.
Abstract（参考訳）: AIアライメントの進歩にもかかわらず、言語モデル(LM)は敵の攻撃や脱獄に弱いままであり、敵が入力プロンプトを変更して有害な行動を引き起こす。いくつかの防衛案が提案されているが、それらは狭義の脅威モデルに焦点を合わせており、我々は効果的で普遍的で実用的であるべきだと考えている。そこで本研究では,LMをジェイルブレーキング攻撃から守るための最初の敵目標と,無害な出力を実行するために勾配に基づくトークン最適化を用いるロバストプロンプト最適化(RPO)を提案する。これにより、最適化時に見られるジェイルブレイクと未知のジェイルブレイクの両方に対する堅牢性を著しく改善し、スターリング-7Bの攻撃成功率を20回のジェイルブレイクで84%から8.66%に下げる。さらに, RPO は良性使用に対して軽微な影響があり, 適応攻撃下では成功し, ブラックボックスモデルへの移行が可能であり, GPT-4 に対する最強攻撃 GUARD の成功率は 92% から 6% に低下することがわかった。

関連論文リスト

DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文参考訳（メタデータ） (2025-04-18T09:02:12Z)
LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文参考訳（メタデータ） (2025-04-02T09:21:26Z)
JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文参考訳（メタデータ） (2024-12-20T07:29:10Z)
FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文参考訳（メタデータ） (2024-12-10T17:02:28Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文参考訳（メタデータ） (2024-06-08T15:45:31Z)
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T15:37:15Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文参考訳（メタデータ） (2024-02-09T09:09:39Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。