Fugu-MT 論文翻訳(概要): Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection

論文の概要: Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection

arxiv url: http://arxiv.org/abs/2411.01077v1
Date: Fri, 01 Nov 2024 23:18:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.582085
Title: Emoji Attack: A Method for Misleading Judge LLMs in Safety Risk Detection
Title（参考訳）: エモジ・アタック : 安全リスク検出におけるLCMのミススリーディング手法
Authors: Zhipeng Wei, Yuqi Liu, N. Benjamin Erichson,
Abstract要約: LLMはトークンセグメンテーションバイアスの影響を受けている。このバイアスはトークンを小さなサブトークンに分割し、埋め込みを変更するときに発生する。絵文字をトークン内に配置して埋め込みの違いを増やす方法である絵文字アタックを導入する。
参考スコア（独自算出の注目度）: 15.780320710170043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Jailbreaking attacks show how Large Language Models (LLMs) can be tricked into generating harmful outputs using malicious prompts. To prevent these attacks, other LLMs are often used as judges to evaluate the harmfulness of the generated content. However, relying on LLMs as judges can introduce biases into the detection process, which in turn compromises the effectiveness of the evaluation. In this paper, we show that Judge LLMs, like other LLMs, are also affected by token segmentation bias. This bias occurs when tokens are split into smaller sub-tokens, altering their embeddings. This makes it harder for the model to detect harmful content. Specifically, this bias can cause sub-tokens to differ significantly from the original token in the embedding space, leading to incorrect "safe" predictions for harmful content. To exploit this bias in Judge LLMs, we introduce the Emoji Attack -- a method that places emojis within tokens to increase the embedding differences between sub-tokens and their originals. These emojis create new tokens that further distort the token embeddings, exacerbating the bias. To counter the Emoji Attack, we design prompts that help LLMs filter out unusual characters. However, this defense can still be bypassed by using a mix of emojis and other characters. The Emoji Attack can also be combined with existing jailbreaking prompts using few-shot learning, which enables LLMs to generate harmful responses with emojis. These responses are often mistakenly labeled as "safe" by Judge LLMs, allowing the attack to slip through. Our experiments with six state-of-the-art Judge LLMs show that the Emoji Attack allows 25\% of harmful responses to bypass detection by Llama Guard and Llama Guard 2, and up to 75\% by ShieldLM. These results highlight the need for stronger Judge LLMs to address this vulnerability.
Abstract（参考訳）: 脱獄攻撃は、Large Language Models(LLM)が悪質なプロンプトを使って有害なアウトプットを生成する方法を示している。これらの攻撃を防ぐため、他のLSMは、生成されたコンテンツの有害性を評価するために、裁判官としてしばしば使用される。しかし、審査員としてLLMに頼ると、検出プロセスにバイアスが生じ、その結果、評価の有効性が損なわれる。本稿では,他のLSMと同様,トークンセグメンテーションバイアスによる影響も示している。このバイアスはトークンを小さなサブトークンに分割し、埋め込みを変更するときに発生する。これにより、モデルが有害なコンテンツを検出するのが難しくなる。特に、このバイアスは、埋め込み空間の元々のトークンと大きく異なる部分トークンを引き起こし、有害なコンテンツに対する誤った「安全な」予測を引き起こす。 LLMにおけるこのバイアスを活用するために,絵文字をトークン内に配置し,サブトークンとオリジナルとの埋め込みの違いを増大させる手法である絵文字アタックを導入する。これらの絵文字は新たなトークンを生成し、トークンの埋め込みをさらに歪め、バイアスを悪化させる。エモジアタックに対抗するために、LLMが異常な文字をフィルタリングするのに役立つプロンプトを設計する。しかし、この防御は絵文字と他の文字を混在させることで回避することができる。絵文字アタックは、数ショットの学習を使って既存のジェイルブレイクプロンプトと組み合わせることができるため、LLMは絵文字で有害な応答を生成できる。これらの反応はしばしば、LLMs判事によって「安全」と誤ってラベル付けされ、攻撃が抜けることを可能にする。 LLMを用いた6つの実験により,Llama GuardとLlama Guard 2によるバイパス検出に対するEmoji攻撃は25 %,SheelLMによる75 %の有害反応が認められた。これらの結果は、この脆弱性に対処する強力な判断LSMの必要性を浮き彫りにしている。

関連論文リスト

JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。 JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文参考訳（メタデータ） (2025-08-07T07:14:01Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。本稿では,Token Highlighterという手法を提案する。
論文参考訳（メタデータ） (2024-12-24T05:10:02Z)
BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models [0.0]
本稿では,大規模言語モデル (LLM) における安全性に起因したバイアスが引き起こす固有のリスクを明らかにする,BiasJailbreakの概念を紹介する。生成前に防御プロンプトを注入することにより、脱獄未遂を防止する効率的な防御方法であるBiasDefenseを提案する。本研究は, LLMの倫理的バイアスが, 実際に安全でない出力を発生させる可能性を強調し, LLMをより安全でバイアスのないものにする方法を提案する。
論文参考訳（メタデータ） (2024-10-17T08:46:09Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。 LLMは有害なデータ収集や隠蔽攻撃に使用できる。私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文参考訳（メタデータ） (2024-08-20T09:11:21Z)
Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文参考訳（メタデータ） (2024-06-16T03:38:48Z)
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文参考訳（メタデータ） (2024-06-06T13:00:42Z)
Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。 eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。 LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文参考訳（メタデータ） (2024-05-31T07:41:03Z)
Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文参考訳（メタデータ） (2024-02-26T10:03:33Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文参考訳（メタデータ） (2024-02-14T06:54:31Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。