論文の概要: Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens
- arxiv url: http://arxiv.org/abs/2405.20653v1
- Date: Fri, 31 May 2024 07:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:16:48.631475
- Title: Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens
- Title(参考訳): 無音トークンによる大規模言語モデルに対するジェイルブレイク攻撃の強化
- Authors: Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh, Wenbo Guo, Han Liu, Xinyu Xing,
- Abstract要約: 既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
- 参考スコア(独自算出の注目度): 21.871299859359237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Along with the remarkable successes of Language language models, recent research also started to explore the security threats of LLMs, including jailbreaking attacks. Attackers carefully craft jailbreaking prompts such that a target LLM will respond to the harmful question. Existing jailbreaking attacks require either human experts or leveraging complicated algorithms to craft jailbreaking prompts. In this paper, we introduce BOOST, a simple attack that leverages only the eos tokens. We demonstrate that rather than constructing complicated jailbreaking prompts, the attacker can simply append a few eos tokens to the end of a harmful question. It will bypass the safety alignment of LLMs and lead to successful jailbreaking attacks. We further apply BOOST to four representative jailbreak methods and show that the attack success rates of these methods can be significantly enhanced by simply adding eos tokens to the prompt. To understand this simple but novel phenomenon, we conduct empirical analyses. Our analysis reveals that adding eos tokens makes the target LLM believe the input is much less harmful, and eos tokens have low attention values and do not affect LLM's understanding of the harmful questions, leading the model to actually respond to the questions. Our findings uncover how fragile an LLM is against jailbreak attacks, motivating the development of strong safety alignment approaches.
- Abstract(参考訳): 言語モデルの顕著な成功に加えて、最近の研究は、脱獄攻撃を含むLLMのセキュリティ脅威の調査も開始した。
攻撃者は、標的のLSMが有害な質問に応答するように、ジェイルブレイクのプロンプトを慎重に作成する。
既存のジェイルブレイク攻撃では、人間の専門家か複雑なアルゴリズムを使ってジェイルブレイクのプロンプトを作らなければならない。
本稿では,eosトークンのみを利用する単純な攻撃であるBOOSTを紹介する。
我々は、複雑なジェイルブレイクプロンプトを構築する代わりに、攻撃者は有害な質問の最後にいくつかのeosトークンを追加するだけでよいことを示した。
LLMの安全アライメントを回避し、脱獄攻撃を成功させる。
さらに, BOOST を 4 つの代表的なjailbreak 手法に適用し, プロンプトに eos トークンを追加するだけで, 攻撃成功率を大幅に向上できることを示す。
この単純だが斬新な現象を理解するために、我々は経験的分析を行う。
分析の結果、eosトークンを追加することで、ターゲットのLSMは入力がより有害であると信じ、eosトークンは注意値が低く、有害な質問に対するLLMの理解に影響を与えないことが明らかとなり、モデルが実際に質問に答える結果となった。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
関連論文リスト
- Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文 参考訳(メタデータ) (2024-06-16T03:38:48Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。