論文の概要: Exploiting Uncommon Text-Encoded Structures for Automated Jailbreaks in LLMs
- arxiv url: http://arxiv.org/abs/2406.08754v2
- Date: Fri, 19 Jul 2024 08:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:58:09.298568
- Title: Exploiting Uncommon Text-Encoded Structures for Automated Jailbreaks in LLMs
- Title(参考訳): LLMにおける自動ジェイルブレイクのための非共通テキストエンコード構造
- Authors: Bangxin Li, Hengrui Xing, Chao Huang, Jin Qian, Huangqing Xiao, Linfeng Feng, Cong Tian,
- Abstract要約: 本稿では,ジェイルブレイク攻撃に対する迅速な構造の影響について検討する。
LLMトレーニングではほとんど使われない尾構造に基づく新しい構造レベルアタック手法を提案する。
われわれは、3つのエスカレート攻撃戦略を含む、StructureSleightという自動ジェイルブレイクツールを構築した。
- 参考スコア(独自算出の注目度): 5.7998356650620035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used in natural language processing but face the risk of jailbreak attacks that maliciously induce them to generate harmful content. Existing jailbreak attacks, including character-level and context-level attacks, mainly focus on the prompt of the plain text without specifically exploring the significant influence of its structure. In this paper, we focus on studying how prompt structure contributes to the jailbreak attack. We introduce a novel structure-level attack method based on tail structures that are rarely used during LLM training, which we refer to as Uncommon Text-Encoded Structure (UTES). We extensively study 12 UTESs templates and 6 obfuscation methods to build an effective automated jailbreak tool named StructuralSleight that contains three escalating attack strategies: Structural Attack, Structural and Character/Context Obfuscation Attack, and Fully Obfuscated Structural Attack. Extensive experiments on existing LLMs show that StructuralSleight significantly outperforms baseline methods. In particular, the attack success rate reaches 94.62\% on GPT-4o, which has not been addressed by state-of-the-art techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理で広く使われているが、有害なコンテンツを生成するために悪質に誘導するジェイルブレイク攻撃のリスクに直面している。
キャラクタレベルやコンテキストレベルの攻撃を含む既存のジェイルブレイク攻撃は主に、その構造に大きな影響を特に調べることなく、プレーンテキストのプロンプトに焦点を当てた。
本稿では,ジェイルブレイク攻撃に即時的構造がどう寄与するかを考察する。
本研究では,LLMトレーニング中にはほとんど使われない尾構造に基づく新しい構造レベルアタック手法を提案する。
本研究では,12個のUTESテンプレートと6個の難読化手法を用いて,構造攻撃・構造・文字・コンテキスト難読化攻撃・完全難読化攻撃の3つのエスカレート攻撃戦略を含む,StructureSleightという効果的な自動脱獄ツールを構築する。
既存のLLMの大規模な実験は、StructureSleightがベースライン法よりも大幅に優れていることを示している。
特に、攻撃成功率はGPT-4oで94.62 %に達するが、これは最先端の技術では対処されていない。
関連論文リスト
- Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。
それらはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文 参考訳(メタデータ) (2024-06-13T17:01:40Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM
Jailbreakers [80.18953043605696]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。