論文の概要: Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation
and Echopraxia
- arxiv url: http://arxiv.org/abs/2402.05467v1
- Date: Thu, 8 Feb 2024 07:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:07:34.320224
- Title: Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation
and Echopraxia
- Title(参考訳): 意識下爆発とエコープラクシアによる脱獄性LDMの迅速最適化
- Authors: Guangyu Shen, Siyuan Cheng, Kaiyuan Zhang, Guanhong Tao, Shengwei An,
Lu Yan, Zhuo Zhang, Shiqing Ma, Xiangyu Zhang
- Abstract要約: 大規模言語モデル(LLMs)は、暴力的で有害なコンテンツを引き出すための安全対策をバイパスする特別なジェイルブレイクのプロンプトの傾向にある。
本稿では,2つの心理的概念に触発された新しい最適化手法であるRIPPLEを紹介する。
RIPPLE は平均攻撃成功率 91.5% を達成し、現在の5つの手法を最大 47.0% で上回り、オーバーヘッドは 8 倍減少する。
- 参考スコア(独自算出の注目度): 45.682497310103386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become prevalent across diverse sectors,
transforming human life with their extraordinary reasoning and comprehension
abilities. As they find increased use in sensitive tasks, safety concerns have
gained widespread attention. Extensive efforts have been dedicated to aligning
LLMs with human moral principles to ensure their safe deployment. Despite their
potential, recent research indicates aligned LLMs are prone to specialized
jailbreaking prompts that bypass safety measures to elicit violent and harmful
content. The intrinsic discrete nature and substantial scale of contemporary
LLMs pose significant challenges in automatically generating diverse,
efficient, and potent jailbreaking prompts, representing a continuous obstacle.
In this paper, we introduce RIPPLE (Rapid Optimization via Subconscious
Exploitation and Echopraxia), a novel optimization-based method inspired by two
psychological concepts: subconsciousness and echopraxia, which describe the
processes of the mind that occur without conscious awareness and the
involuntary mimicry of actions, respectively. Evaluations across 6 open-source
LLMs and 4 commercial LLM APIs show RIPPLE achieves an average Attack Success
Rate of 91.5\%, outperforming five current methods by up to 47.0\% with an 8x
reduction in overhead. Furthermore, it displays significant transferability and
stealth, successfully evading established detection mechanisms. The code of our
work is available at
\url{https://github.com/SolidShen/RIPPLE_official/tree/official}
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な分野に普及し、その異常な推論と理解能力で人間の生活を変革している。
敏感なタスクの利用が増加するにつれて、安全上の懸念が広く注目を集めている。
LLMを人間の倫理的原則と整合させ、安全な配備を確保するために、広範囲にわたる努力が注がれている。
これらの可能性にもかかわらず、最近の研究は、LLMは、暴力的で有害なコンテンツを引き出すための安全対策をバイパスする特別なジェイルブレイクのプロンプトの傾向を示している。
内在的な離散的性質と現代のllmの実質的な規模は、連続的な障害を表す多様で効率的で強力なジェイルブレイクプロンプトを自動的に生成する上で大きな課題となる。
本稿では,自覚を伴わない心のプロセスと行動の不随意の模倣を記述した,意識下とエコープラキシアという2つの心理的概念にインスパイアされた,新たな最適化手法であるRIPPLEを紹介する。
6つのオープンソース LLM と4つの商用 LLM API による評価では、RIPPLE は平均攻撃成功率 91.5 % を達成し、現在の5つのメソッドを最大47.0 % 上回っており、オーバーヘッドは 8 倍減少している。
さらに、大きな伝達性とステルスを示し、確立された検出機構を回避した。
作業のコードは \url{https://github.com/SolidShen/RIPPLE_official/tree/official} で公開されている。
関連論文リスト
- LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Diversity Helps Jailbreak Large Language Models [16.34618038553998]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
LLMに以前の攻撃を逸脱して難読化するように指示するだけで、我々の手法は既存の手法よりも劇的に優れている。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Cognitive Overload Attack:Prompt Injection for Long Context [39.61095361609769]
大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。
この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。
我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。
GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
論文 参考訳(メタデータ) (2024-10-15T04:53:34Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。