論文の概要: Tastle: Distract Large Language Models for Automatic Jailbreak Attack
- arxiv url: http://arxiv.org/abs/2403.08424v1
- Date: Wed, 13 Mar 2024 11:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:35.829970
- Title: Tastle: Distract Large Language Models for Automatic Jailbreak Attack
- Title(参考訳): Tastle: 自動脱獄攻撃のための大規模言語モデルを抽出する
- Authors: Zeguan Xiao, Yan Yang, Guanhua Chen, Yun Chen
- Abstract要約: 大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
- 参考スコア(独自算出の注目度): 9.137714258654842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved significant advances in recent
days. Extensive efforts have been made before the public release of LLMs to
align their behaviors with human values. The primary goal of alignment is to
ensure their helpfulness, honesty and harmlessness. However, even meticulously
aligned LLMs remain vulnerable to malicious manipulations such as jailbreaking,
leading to unintended behaviors. The jailbreak is to intentionally develop a
malicious prompt that escapes from the LLM security restrictions to produce
uncensored detrimental contents. Previous works explore different jailbreak
methods for red teaming LLMs, yet they encounter challenges regarding to
effectiveness and scalability. In this work, we propose Tastle, a novel
black-box jailbreak framework for automated red teaming of LLMs. We designed
malicious content concealing and memory reframing with an iterative
optimization algorithm to jailbreak LLMs, motivated by the research about the
distractibility and over-confidence phenomenon of LLMs. Extensive experiments
of jailbreaking both open-source and proprietary LLMs demonstrate the
superiority of our framework in terms of effectiveness, scalability and
transferability. We also evaluate the effectiveness of existing jailbreak
defense methods against our attack and highlight the crucial need to develop
more effective and practical defense strategies.
- Abstract(参考訳): 大規模言語モデル (LLM) は近年大きな進歩を遂げている。
LLMの公開前に、その行動と人間の価値を一致させるために、広範囲にわたる努力がなされている。
アライメントの第一の目的は、彼らの役に立つこと、正直であること、無害であることを保証することです。
しかし、厳格に整列したLSMでさえ、ジェイルブレイクのような悪意のある操作に弱いままであり、意図しない行動に繋がる。
脱獄は故意にLLMのセキュリティ制限から逃れる悪意のあるプロンプトを開発し、無検閲の有害な有害なコンテンツを生成することである。
以前の作業では、レッドチームLDMのためのさまざまなjailbreakメソッドを探索していましたが、有効性とスケーラビリティに関する課題に直面しています。
本研究では,LDMの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークであるTastleを提案する。
我々は,不正なコンテンツの隠蔽とメモリリフレーミングを反復的最適化アルゴリズムを用いて設計し,LLMの障害性と過信現象の研究に動機づけられた。
オープンソースとプロプライエタリなLDMの両方をジェイルブレイクする大規模な実験は、有効性、スケーラビリティ、転送性の観点から、我々のフレームワークの優位性を実証している。
また,既存のジェイルブレイク防御手法の攻撃に対する効果を評価し,より効果的で実用的な防衛戦略を開発することの必要性を強調した。
関連論文リスト
- LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。
我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。
我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。