論文の概要: Jailbroken: How Does LLM Safety Training Fail?
- arxiv url: http://arxiv.org/abs/2307.02483v1
- Date: Wed, 5 Jul 2023 17:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:37:55.386286
- Title: Jailbroken: How Does LLM Safety Training Fail?
- Title(参考訳): Jailbroken: LLMの安全トレーニングはどのように失敗するのか?
- Authors: Alexander Wei and Nika Haghtalab and Jacob Steinhardt
- Abstract要約: ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
- 参考スコア(独自算出の注目度): 92.8748773632051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained for safety and harmlessness remain susceptible
to adversarial misuse, as evidenced by the prevalence of "jailbreak" attacks on
early releases of ChatGPT that elicit undesired behavior. Going beyond
recognition of the issue, we investigate why such attacks succeed and how they
can be created. We hypothesize two failure modes of safety training: competing
objectives and mismatched generalization. Competing objectives arise when a
model's capabilities and safety goals conflict, while mismatched generalization
occurs when safety training fails to generalize to a domain for which
capabilities exist. We use these failure modes to guide jailbreak design and
then evaluate state-of-the-art models, including OpenAI's GPT-4 and Anthropic's
Claude v1.3, against both existing and newly designed attacks. We find that
vulnerabilities persist despite the extensive red-teaming and safety-training
efforts behind these models. Notably, new attacks utilizing our failure modes
succeed on every prompt in a collection of unsafe requests from the models'
red-teaming evaluation sets and outperform existing ad hoc jailbreaks. Our
analysis emphasizes the need for safety-capability parity -- that safety
mechanisms should be as sophisticated as the underlying model -- and argues
against the idea that scaling alone can resolve these safety failure modes.
- Abstract(参考訳): 安全と無害のために訓練された大規模な言語モデルは、ChatGPTの初期リリースに対する「ジェイルブレイク」攻撃の頻度から証明されたように、敵の誤用の影響を受けやすいままである。
問題の認識を超えて、このような攻撃がなぜ成功し、どのように発生できるかを調査する。
我々は,安全訓練における2つの障害モードを仮定した。
競合する目的は、モデルの能力と安全性の目標が相反するときに生じるが、安全トレーニングが機能のある領域に一般化できない場合に、ミスマッチした一般化が発生する。
我々はこれらの障害モードを使用して、jailbreakの設計をガイドし、OpenAIのGPT-4やAnthropicのClaude v1.3といった最先端のモデルを評価する。
これらのモデルの背後にある広範囲な赤チームと安全トレーニングの努力にもかかわらず、脆弱性は持続する。
特に、フェールモードを利用した新たな攻撃は、モデルのリピート評価セットからの安全でない要求の収集において、すべてのプロンプトで成功し、既存のアドホックジェイルブレイクを上回っます。
私たちの分析では、安全性と能力の同等性(安全性メカニズムは基盤となるモデルと同じくらい高度であること)の必要性を強調し、スケーリングだけでこれらの安全障害モードを解決できるという考えに反対しています。
関連論文リスト
- LLM Jailbreak Attack versus Defense Techniques -- A Comprehensive Study [21.887754822482528]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Self-Guard: Empower the LLM to Safeguard Itself [34.64936748697721]
ジェイルブレイク攻撃には2つの主要なアプローチがある。
本稿では,両安全性手法の強みを組み合わせた,セルフガードと呼ばれる新しいアプローチを提案する。
この実験は、セルフガードがジェイルブレイク攻撃に対して堅牢であることを示した。
論文 参考訳(メタデータ) (2023-10-24T14:08:26Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Kick Bad Guys Out! Zero-Knowledge-Proof-Based Anomaly Detection in
Federated Learning [23.028996086241268]
Federated Learning (FL) システムは敵の攻撃に対して脆弱である。
現在の防衛方法は現実世界のFLシステムでは不足している。
本稿では,現実世界のFLシステムを対象とした新しい異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Certified Federated Adversarial Training [3.474871319204387]
我々は、労働者のクォーラムが完全に悪意のある場合、FLシステムに敵の訓練を施すシナリオに取り組む。
我々は、モデルに毒を盛ったアタッカーをモデル化し、そのモデルが明らかに敵の堅牢性を示すように、敵の訓練に弱点を挿入する。
この防御は、アダプティブアタックに対してさえも、敵の堅牢性を維持することができることを示す。
論文 参考訳(メタデータ) (2021-12-20T13:40:20Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。