論文の概要: Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation
Engineering
- arxiv url: http://arxiv.org/abs/2401.06824v1
- Date: Fri, 12 Jan 2024 00:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:20:18.777998
- Title: Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation
Engineering
- Title(参考訳): Pandora's Box of LLM: Representation Engineering による LLM のジェイルブレイク
- Authors: Tianlong Li, Xiaoqing Zheng, Xuanjing Huang
- Abstract要約: 本稿では, 精巧な施工手順を必要とせず, モデル微調整の影響を受けず, 任意のオープンソースLCMに対して, プラグ可能な方法で広く適用可能なジェイルブレイク手法を提案する。
いくつかの興味深いジェイルブレイク事件に驚いた後、我々はこの手法の技法を深く研究した。
- 参考スコア(独自算出の注目度): 36.61892856628794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Getting large language models (LLMs) to refuse to answer hostile toxicity
questions is a core issue under the theme of LLMs security. Previous approaches
have used prompts engineering to jailbreak LLMs and answer some toxicity
questions. These approaches can easily fail after the model manufacturer makes
additional fine-tuning to the model. To promote the further understanding of
model jailbreaking by researchers, we are inspired by Representation
Engineering to propose a jailbreaking method that does not require elaborate
construction prompts, is not affected by model fine-tuning, and can be widely
applied to any open-source LLMs in a pluggable manner. We have evaluated this
method on multiple mainstream LLMs on carefully supplemented toxicity datasets,
and the experimental results demonstrate the significant effectiveness of our
approach. After being surprised by some interesting jailbreaking cases, we did
extensive in-depth research to explore the techniques behind this method.
- Abstract(参考訳): 大きな言語モデル(LLM)を敵対的な毒性問題に答えることを拒否したことは、LLMのセキュリティというテーマの中核的な問題である。
これまでのアプローチでは、lLMをジェイルブレイクし、いくつかの毒性問題に答えるために、プロンプトエンジニアリングを使用してきた。
これらのアプローチは、モデルメーカがモデルに微調整を加えると容易に失敗する可能性がある。
研究者らによるモデルジェイルブレイクのさらなる理解を促進するため,我々はRepresentation Engineering にインスパイアされ,精巧な構築手順を必要とせず,モデル微調整の影響を受けず,プラグイン可能なオープンソース LLM にも広く適用可能なジェイルブレイク手法を提案する。
本研究では, 本手法の有効性を実験的に検証し, 本手法の有効性を実証した。
いくつかの興味深いジェイルブレイク事件に驚いた後、我々はこの手法の背景にある技法を深く研究した。
関連論文リスト
- Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Making Them Ask and Answer: Jailbreaking Large Language Models in Few
Queries via Disguise and Reconstruction [33.02972780172842]
攻撃者は、大きな言語モデル(LLM)から有害な応答を誘導する敵のプロンプトを作成できる
安全微調整におけるバイアスの脆弱性を特定することによって,LLMのセキュリティに関する理論的基盤を開拓した。
我々は、さまざまなオープンソースモデルとオープンソースモデルにまたがってDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。
論文 参考訳(メタデータ) (2024-02-28T06:50:14Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。