論文の概要: Endless Jailbreaks with Bijection Learning
- arxiv url: http://arxiv.org/abs/2410.01294v1
- Date: Wed, 2 Oct 2024 07:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:59:16.076308
- Title: Endless Jailbreaks with Bijection Learning
- Title(参考訳): ビジェクション学習による終わりのない脱獄
- Authors: Brian R. Y. Huang, Maximilian Li, Leonard Tang,
- Abstract要約: ビジェクション学習(Bijection learning)は、大規模に成長する自動化された普遍的な攻撃である。
我々は、言語モデルの高度な推論能力を利用して、文脈における可逆言語(ビジェクション)を教える。
我々のアプローチは、幅広いフロンティア言語モデルと有害カテゴリーに有効であることを示す。
- 参考スコア(独自算出の注目度): 3.5963161678592828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite extensive safety training, LLMs are vulnerable to adversarial inputs. In this work, we introduce a simple but powerful attack paradigm, bijection learning, that yields a practically endless set of jailbreak prompts. We exploit language models' advanced reasoning capabilities to teach them invertible languages (bijections) in context, pass encoded queries to the model to bypass built-in safety mechanisms, and finally decode responses back into English, yielding helpful replies to harmful requests. Our approach proves effective on a wide range of frontier language models and harm categories. Bijection learning is an automated and universal attack that grows stronger with scale: larger models with more advanced reasoning capabilities are more susceptible to bijection learning jailbreaks despite stronger safety mechanisms.
- Abstract(参考訳): 広範囲な安全訓練にもかかわらず、LLMは敵の入力に対して脆弱である。
本研究では,単純だが強力な攻撃パラダイムであるビジェクション学習を導入し,事実上無限のジェイルブレイクプロンプトを発生させる。
言語モデルの高度な推論機能を活用して、コンテキスト内で非可逆言語(ビジェクション)を教え、エンコードされたクエリをモデルに渡すことで、組込み安全メカニズムをバイパスし、最後に応答を英語に復号し、有害な要求に対する有用な応答を得る。
我々のアプローチは、幅広いフロンティア言語モデルと有害カテゴリーに有効であることを示す。
より高度な推論能力を持つ大型モデルは、より強力な安全メカニズムにもかかわらず、ビジェクション学習のジェイルブレイクの影響を受けやすい。
関連論文リスト
- Jailbreaking Large Language Models in Infinitely Many Ways [3.5674816606221182]
我々は、最も強力なオープンソースLLMの保護を回避し、その安全ポリシーに明示的に違反するコンテンツを生成する方法を示す。
実装が容易な攻撃の2つのカテゴリについて,トークンと埋め込み空間の2つの防御戦略について論じる。
論文 参考訳(メタデータ) (2025-01-18T15:39:53Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Plentiful Jailbreaks with String Compositions [0.0]
大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクメソッドに対して脆弱なままである。
我々のチームは、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統合した。
論文 参考訳(メタデータ) (2024-11-01T23:53:00Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。