論文の概要: Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection
- arxiv url: http://arxiv.org/abs/2411.01077v1
- Date: Fri, 01 Nov 2024 23:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:45.134771
- Title: Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection
- Title(参考訳): エモジ・アタック : 安全リスク検出におけるLCMのミススリーディング手法
- Authors: Zhipeng Wei, Yuqi Liu, N. Benjamin Erichson,
- Abstract要約: LLMはトークンセグメンテーションバイアスの影響を受けている。
このバイアスはトークンを小さなサブトークンに分割し、埋め込みを変更するときに発生する。
絵文字をトークン内に配置して埋め込みの違いを増やす方法である絵文字アタックを導入する。
- 参考スコア(独自算出の注目度): 15.780320710170043
- License:
- Abstract: Jailbreaking attacks show how Large Language Models (LLMs) can be tricked into generating harmful outputs using malicious prompts. To prevent these attacks, other LLMs are often used as judges to evaluate the harmfulness of the generated content. However, relying on LLMs as judges can introduce biases into the detection process, which in turn compromises the effectiveness of the evaluation. In this paper, we show that Judge LLMs, like other LLMs, are also affected by token segmentation bias. This bias occurs when tokens are split into smaller sub-tokens, altering their embeddings. This makes it harder for the model to detect harmful content. Specifically, this bias can cause sub-tokens to differ significantly from the original token in the embedding space, leading to incorrect "safe" predictions for harmful content. To exploit this bias in Judge LLMs, we introduce the Emoji Attack -- a method that places emojis within tokens to increase the embedding differences between sub-tokens and their originals. These emojis create new tokens that further distort the token embeddings, exacerbating the bias. To counter the Emoji Attack, we design prompts that help LLMs filter out unusual characters. However, this defense can still be bypassed by using a mix of emojis and other characters. The Emoji Attack can also be combined with existing jailbreaking prompts using few-shot learning, which enables LLMs to generate harmful responses with emojis. These responses are often mistakenly labeled as "safe" by Judge LLMs, allowing the attack to slip through. Our experiments with six state-of-the-art Judge LLMs show that the Emoji Attack allows 25\% of harmful responses to bypass detection by Llama Guard and Llama Guard 2, and up to 75\% by ShieldLM. These results highlight the need for stronger Judge LLMs to address this vulnerability.
- Abstract(参考訳): 脱獄攻撃は、Large Language Models(LLM)が悪質なプロンプトを使って有害なアウトプットを生成する方法を示している。
これらの攻撃を防ぐため、他のLSMは、生成されたコンテンツの有害性を評価するために、裁判官としてしばしば使用される。
しかし、審査員としてLLMに頼ると、検出プロセスにバイアスが生じ、その結果、評価の有効性が損なわれる。
本稿では,他のLSMと同様,トークンセグメンテーションバイアスによる影響も示している。
このバイアスはトークンを小さなサブトークンに分割し、埋め込みを変更するときに発生する。
これにより、モデルが有害なコンテンツを検出するのが難しくなる。
特に、このバイアスは、埋め込み空間の元々のトークンと大きく異なる部分トークンを引き起こし、有害なコンテンツに対する誤った「安全な」予測を引き起こす。
LLMにおけるこのバイアスを活用するために,絵文字をトークン内に配置し,サブトークンとオリジナルとの埋め込みの違いを増大させる手法である絵文字アタックを導入する。
これらの絵文字は新たなトークンを生成し、トークンの埋め込みをさらに歪め、バイアスを悪化させる。
エモジアタックに対抗するために、LLMが異常な文字をフィルタリングするのに役立つプロンプトを設計する。
しかし、この防御は絵文字と他の文字を混在させることで回避することができる。
絵文字アタックは、数ショットの学習を使って既存のジェイルブレイクプロンプトと組み合わせることができるため、LLMは絵文字で有害な応答を生成できる。
これらの反応はしばしば、LLMs判事によって「安全」と誤ってラベル付けされ、攻撃が抜けることを可能にする。
LLMを用いた6つの実験により,Llama GuardとLlama Guard 2によるバイパス検出に対するEmoji攻撃は25 %,SheelLMによる75 %の有害反応が認められた。
これらの結果は、この脆弱性に対処する強力な判断LSMの必要性を浮き彫りにしている。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文 参考訳(メタデータ) (2024-06-16T03:38:48Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。