論文の概要: Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation
and Echopraxia
- arxiv url: http://arxiv.org/abs/2402.05467v1
- Date: Thu, 8 Feb 2024 07:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:07:34.320224
- Title: Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation
and Echopraxia
- Title(参考訳): 意識下爆発とエコープラクシアによる脱獄性LDMの迅速最適化
- Authors: Guangyu Shen, Siyuan Cheng, Kaiyuan Zhang, Guanhong Tao, Shengwei An,
Lu Yan, Zhuo Zhang, Shiqing Ma, Xiangyu Zhang
- Abstract要約: 大規模言語モデル(LLMs)は、暴力的で有害なコンテンツを引き出すための安全対策をバイパスする特別なジェイルブレイクのプロンプトの傾向にある。
本稿では,2つの心理的概念に触発された新しい最適化手法であるRIPPLEを紹介する。
RIPPLE は平均攻撃成功率 91.5% を達成し、現在の5つの手法を最大 47.0% で上回り、オーバーヘッドは 8 倍減少する。
- 参考スコア(独自算出の注目度): 45.682497310103386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become prevalent across diverse sectors,
transforming human life with their extraordinary reasoning and comprehension
abilities. As they find increased use in sensitive tasks, safety concerns have
gained widespread attention. Extensive efforts have been dedicated to aligning
LLMs with human moral principles to ensure their safe deployment. Despite their
potential, recent research indicates aligned LLMs are prone to specialized
jailbreaking prompts that bypass safety measures to elicit violent and harmful
content. The intrinsic discrete nature and substantial scale of contemporary
LLMs pose significant challenges in automatically generating diverse,
efficient, and potent jailbreaking prompts, representing a continuous obstacle.
In this paper, we introduce RIPPLE (Rapid Optimization via Subconscious
Exploitation and Echopraxia), a novel optimization-based method inspired by two
psychological concepts: subconsciousness and echopraxia, which describe the
processes of the mind that occur without conscious awareness and the
involuntary mimicry of actions, respectively. Evaluations across 6 open-source
LLMs and 4 commercial LLM APIs show RIPPLE achieves an average Attack Success
Rate of 91.5\%, outperforming five current methods by up to 47.0\% with an 8x
reduction in overhead. Furthermore, it displays significant transferability and
stealth, successfully evading established detection mechanisms. The code of our
work is available at
\url{https://github.com/SolidShen/RIPPLE_official/tree/official}
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な分野に普及し、その異常な推論と理解能力で人間の生活を変革している。
敏感なタスクの利用が増加するにつれて、安全上の懸念が広く注目を集めている。
LLMを人間の倫理的原則と整合させ、安全な配備を確保するために、広範囲にわたる努力が注がれている。
これらの可能性にもかかわらず、最近の研究は、LLMは、暴力的で有害なコンテンツを引き出すための安全対策をバイパスする特別なジェイルブレイクのプロンプトの傾向を示している。
内在的な離散的性質と現代のllmの実質的な規模は、連続的な障害を表す多様で効率的で強力なジェイルブレイクプロンプトを自動的に生成する上で大きな課題となる。
本稿では,自覚を伴わない心のプロセスと行動の不随意の模倣を記述した,意識下とエコープラキシアという2つの心理的概念にインスパイアされた,新たな最適化手法であるRIPPLEを紹介する。
6つのオープンソース LLM と4つの商用 LLM API による評価では、RIPPLE は平均攻撃成功率 91.5 % を達成し、現在の5つのメソッドを最大47.0 % 上回っており、オーバーヘッドは 8 倍減少している。
さらに、大きな伝達性とステルスを示し、確立された検出機構を回避した。
作業のコードは \url{https://github.com/SolidShen/RIPPLE_official/tree/official} で公開されている。
関連論文リスト
- Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions [125.21418304558948]
大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding [95.49128988683191]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation
Engineering [44.10397472780012]
Representation Engineering (JRE) による Jailbreaking LLMs という新しいjailbreakingアプローチを提案する。
本手法では,対象モデルの防御を回避できる「安全パターン」を抽出するために,少数のクエリペアしか必要としない。
また、これらの知見に基づいて、JRE原則に着想を得た新しい防御フレームワークを導入し、顕著な効果を示した。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。