論文の概要: Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2411.02785v2
- Date: Thu, 05 Dec 2024 12:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:08.638330
- Title: Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment
- Title(参考訳): 確率的な猿の遊び:LLMの安全性を損ねるランダムな強化
- Authors: Jason Vega, Junsheng Huang, Gaokai Zhang, Hangoo Kang, Minjia Zhang, Gagandeep Singh,
- Abstract要約: 本稿では,入力に対する単純なランダムな拡張が,最先端のLCMにおける安全アライメントの有効性にどのように影響するかを検討する。
低リソース・無知な攻撃者は1プロンプト当たり25のランダムな拡張でアライメントを回避できる可能性を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 16.5939079098358
- License:
- Abstract: Safety alignment of Large Language Models (LLMs) has recently become a critical objective of model developers. In response, a growing body of work has been investigating how safety alignment can be bypassed through various jailbreaking methods, such as adversarial attacks. However, these jailbreak methods can be rather costly or involve a non-trivial amount of creativity and effort, introducing the assumption that malicious users are high-resource or sophisticated. In this paper, we study how simple random augmentations to the input prompt affect safety alignment effectiveness in state-of-the-art LLMs, such as Llama 3 and Qwen 2. We perform an in-depth evaluation of 17 different models and investigate the intersection of safety under random augmentations with multiple dimensions: augmentation type, model size, quantization, fine-tuning-based defenses, and decoding strategies (e.g., sampling temperature). We show that low-resource and unsophisticated attackers, i.e. $\textit{stochastic monkeys}$, can significantly improve their chances of bypassing alignment with just 25 random augmentations per prompt. Source code and data: https://github.com/uiuc-focal-lab/stochastic-monkeys/
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性の整合性は、最近、モデル開発者の重要な目標となっている。
これに対し、敵の攻撃など、さまざまなジェイルブレイク方法を通じて、安全アライメントをどのように回避できるかを調査する研究が増えている。
しかし、これらのjailbreakメソッドはコストがかかるか、あるいは、悪意のあるユーザが高リソースか洗練されたものであるという仮定を導入して、創造性と努力の自明さを伴う可能性がある。
本稿では,Llama 3 や Qwen 2 のような最先端 LLM の安全アライメントの有効性に,入力に対する単純なランダム拡張がいかに影響するかを検討する。
我々は、17の異なるモデルの詳細な評価を行い、拡張型、モデルサイズ、量子化、微調整型防御、復号化戦略(サンプル温度など)など、複数次元のランダムな拡張の下での安全性の交差について検討する。
例えば$\textit{stochastic monkeys}$は、プロンプト当たり25個のランダムな拡張でアライメントをバイパスする可能性を大幅に改善できることを示す。
ソースコードとデータ:https://github.com/uiuc-focal-lab/stochastic-monkeys/
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs [14.1985036536366]
深部強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。
本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。
RL-JACKは6台のSOTA LLMに対する既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-13T01:05:22Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文 参考訳(メタデータ) (2023-10-10T20:15:54Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。