論文の概要: Emoji-Based Jailbreaking of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.00936v1
- Date: Fri, 02 Jan 2026 10:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.869952
- Title: Emoji-Based Jailbreaking of Large Language Models
- Title(参考訳): 絵文字に基づく大規模言語モデルのジェイルブレーク
- Authors: M P V S Gopinadh, S Mahaboob Hussain,
- Abstract要約: 大規模言語モデル(LLM)は、現代のAIアプリケーションに不可欠なものであるが、それらの安全アライメント機構は、敵のプロンプトエンジニアリングによってバイパスすることができる。
本研究では,非倫理的な有害なアウトプットを引き起こすために,絵文字配列をテキストのプロンプトに埋め込んだ絵文字ベースのジェイルブレイクについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are integral to modern AI applications, but their safety alignment mechanisms can be bypassed through adversarial prompt engineering. This study investigates emoji-based jailbreaking, where emoji sequences are embedded in textual prompts to trigger harmful and unethical outputs from LLMs. We evaluated 50 emoji-based prompts on four open-source LLMs: Mistral 7B, Qwen 2 7B, Gemma 2 9B, and Llama 3 8B. Metrics included jailbreak success rate, safety alignment adherence, and latency, with responses categorized as successful, partial and failed. Results revealed model-specific vulnerabilities: Gemma 2 9B and Mistral 7B exhibited 10 % success rates, while Qwen 2 7B achieved full alignment (0% success). A chi-square test (chi^2 = 32.94, p < 0.001) confirmed significant inter-model differences. While prior works focused on emoji attacks targeting safety judges or classifiers, our empirical analysis examines direct prompt-level vulnerabilities in LLMs. The results reveal limitations in safety mechanisms and highlight the necessity for systematic handling of emoji-based representations in prompt-level safety and alignment pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代のAIアプリケーションに不可欠なものだが、それらの安全アライメント機構は、敵のプロンプトエンジニアリングによってバイパスすることができる。
本研究では,LLMから有害で非倫理的なアウトプットを誘発するために,絵文字配列をテキストのプロンプトに埋め込んだ絵文字ベースのジェイルブレイクについて検討した。
オープンソースLLM(Mistral 7B, Qwen 2 7B, Gemma 2 9B, Llama 3 8B)で50種類の絵文字ベースのプロンプトを評価した。
基準には、ジェイルブレイクの成功率、安全アライメントの順守、遅延が含まれ、応答は成功、部分的、失敗に分類された。
Gemma 2 9BとMistral 7Bは10%の成功率を示し、Qwen 2 7Bは完全なアライメント(0%の成功)を達成した。
chi-square test (chi^2 = 32.94, p < 0.001) により, モデル間差は有意であった。
これまでの研究は、安全判断者や分類者をターゲットにした絵文字攻撃に重点を置いていたが、実験分析ではLSMの直接的プロンプトレベルの脆弱性を調査した。
その結果, 安全性の限界が明らかとなり, アクシデントレベルの安全性とアライメントパイプラインにおいて, 絵文字に基づく表現を体系的に扱う必要性が浮き彫りになった。
関連論文リスト
- Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection [15.780320710170043]
脱獄テクニックは、LLM(Large Language Models)を騙して制限された出力を生成し、潜在的な脅威を生じさせる。
1つの防衛線は、生成されたテキストの有害性を評価するために、別の裁判官 LLM を裁判官として使用することである。
トークンセグメンテーションバイアスを利用して既存のジェイルブレイクプロンプトを増幅する新しい戦略である絵文字アタックを導入する。
論文 参考訳(メタデータ) (2024-11-01T23:18:32Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。