論文の概要: Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection
- arxiv url: http://arxiv.org/abs/2411.01077v1
- Date: Fri, 01 Nov 2024 23:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:45.134771
- Title: Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection
- Title(参考訳): エモジ・アタック : 安全リスク検出におけるLCMのミススリーディング手法
- Authors: Zhipeng Wei, Yuqi Liu, N. Benjamin Erichson,
- Abstract要約: LLMはトークンセグメンテーションバイアスの影響を受けている。
このバイアスはトークンを小さなサブトークンに分割し、埋め込みを変更するときに発生する。
絵文字をトークン内に配置して埋め込みの違いを増やす方法である絵文字アタックを導入する。
- 参考スコア(独自算出の注目度): 15.780320710170043
- License:
- Abstract: Jailbreaking attacks show how Large Language Models (LLMs) can be tricked into generating harmful outputs using malicious prompts. To prevent these attacks, other LLMs are often used as judges to evaluate the harmfulness of the generated content. However, relying on LLMs as judges can introduce biases into the detection process, which in turn compromises the effectiveness of the evaluation. In this paper, we show that Judge LLMs, like other LLMs, are also affected by token segmentation bias. This bias occurs when tokens are split into smaller sub-tokens, altering their embeddings. This makes it harder for the model to detect harmful content. Specifically, this bias can cause sub-tokens to differ significantly from the original token in the embedding space, leading to incorrect "safe" predictions for harmful content. To exploit this bias in Judge LLMs, we introduce the Emoji Attack -- a method that places emojis within tokens to increase the embedding differences between sub-tokens and their originals. These emojis create new tokens that further distort the token embeddings, exacerbating the bias. To counter the Emoji Attack, we design prompts that help LLMs filter out unusual characters. However, this defense can still be bypassed by using a mix of emojis and other characters. The Emoji Attack can also be combined with existing jailbreaking prompts using few-shot learning, which enables LLMs to generate harmful responses with emojis. These responses are often mistakenly labeled as "safe" by Judge LLMs, allowing the attack to slip through. Our experiments with six state-of-the-art Judge LLMs show that the Emoji Attack allows 25\% of harmful responses to bypass detection by Llama Guard and Llama Guard 2, and up to 75\% by ShieldLM. These results highlight the need for stronger Judge LLMs to address this vulnerability.
- Abstract(参考訳): 脱獄攻撃は、Large Language Models(LLM)が悪質なプロンプトを使って有害なアウトプットを生成する方法を示している。
これらの攻撃を防ぐため、他のLSMは、生成されたコンテンツの有害性を評価するために、裁判官としてしばしば使用される。
しかし、審査員としてLLMに頼ると、検出プロセスにバイアスが生じ、その結果、評価の有効性が損なわれる。
本稿では,他のLSMと同様,トークンセグメンテーションバイアスによる影響も示している。
このバイアスはトークンを小さなサブトークンに分割し、埋め込みを変更するときに発生する。
これにより、モデルが有害なコンテンツを検出するのが難しくなる。
特に、このバイアスは、埋め込み空間の元々のトークンと大きく異なる部分トークンを引き起こし、有害なコンテンツに対する誤った「安全な」予測を引き起こす。
LLMにおけるこのバイアスを活用するために,絵文字をトークン内に配置し,サブトークンとオリジナルとの埋め込みの違いを増大させる手法である絵文字アタックを導入する。
これらの絵文字は新たなトークンを生成し、トークンの埋め込みをさらに歪め、バイアスを悪化させる。
エモジアタックに対抗するために、LLMが異常な文字をフィルタリングするのに役立つプロンプトを設計する。
しかし、この防御は絵文字と他の文字を混在させることで回避することができる。
絵文字アタックは、数ショットの学習を使って既存のジェイルブレイクプロンプトと組み合わせることができるため、LLMは絵文字で有害な応答を生成できる。
これらの反応はしばしば、LLMs判事によって「安全」と誤ってラベル付けされ、攻撃が抜けることを可能にする。
LLMを用いた6つの実験により,Llama GuardとLlama Guard 2によるバイパス検出に対するEmoji攻撃は25 %,SheelLMによる75 %の有害反応が認められた。
これらの結果は、この脆弱性に対処する強力な判断LSMの必要性を浮き彫りにしている。
関連論文リスト
- Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。
我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。