論文の概要: Emoji-Based Jailbreaking of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.00936v1
- Date: Fri, 02 Jan 2026 10:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.869952
- Title: Emoji-Based Jailbreaking of Large Language Models
- Title(参考訳): 絵文字に基づく大規模言語モデルのジェイルブレーク
- Authors: M P V S Gopinadh, S Mahaboob Hussain,
- Abstract要約: 大規模言語モデル(LLM)は、現代のAIアプリケーションに不可欠なものであるが、それらの安全アライメント機構は、敵のプロンプトエンジニアリングによってバイパスすることができる。
本研究では,非倫理的な有害なアウトプットを引き起こすために,絵文字配列をテキストのプロンプトに埋め込んだ絵文字ベースのジェイルブレイクについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are integral to modern AI applications, but their safety alignment mechanisms can be bypassed through adversarial prompt engineering. This study investigates emoji-based jailbreaking, where emoji sequences are embedded in textual prompts to trigger harmful and unethical outputs from LLMs. We evaluated 50 emoji-based prompts on four open-source LLMs: Mistral 7B, Qwen 2 7B, Gemma 2 9B, and Llama 3 8B. Metrics included jailbreak success rate, safety alignment adherence, and latency, with responses categorized as successful, partial and failed. Results revealed model-specific vulnerabilities: Gemma 2 9B and Mistral 7B exhibited 10 % success rates, while Qwen 2 7B achieved full alignment (0% success). A chi-square test (chi^2 = 32.94, p < 0.001) confirmed significant inter-model differences. While prior works focused on emoji attacks targeting safety judges or classifiers, our empirical analysis examines direct prompt-level vulnerabilities in LLMs. The results reveal limitations in safety mechanisms and highlight the necessity for systematic handling of emoji-based representations in prompt-level safety and alignment pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代のAIアプリケーションに不可欠なものだが、それらの安全アライメント機構は、敵のプロンプトエンジニアリングによってバイパスすることができる。
本研究では,LLMから有害で非倫理的なアウトプットを誘発するために,絵文字配列をテキストのプロンプトに埋め込んだ絵文字ベースのジェイルブレイクについて検討した。
オープンソースLLM(Mistral 7B, Qwen 2 7B, Gemma 2 9B, Llama 3 8B)で50種類の絵文字ベースのプロンプトを評価した。
基準には、ジェイルブレイクの成功率、安全アライメントの順守、遅延が含まれ、応答は成功、部分的、失敗に分類された。
Gemma 2 9BとMistral 7Bは10%の成功率を示し、Qwen 2 7Bは完全なアライメント(0%の成功)を達成した。
chi-square test (chi^2 = 32.94, p < 0.001) により, モデル間差は有意であった。
これまでの研究は、安全判断者や分類者をターゲットにした絵文字攻撃に重点を置いていたが、実験分析ではLSMの直接的プロンプトレベルの脆弱性を調査した。
その結果, 安全性の限界が明らかとなり, アクシデントレベルの安全性とアライメントパイプラインにおいて, 絵文字に基づく表現を体系的に扱う必要性が浮き彫りになった。
関連論文リスト
- Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは 明らかに良心的な言語の中に 悪意のある意図を埋め込んで 既存の安全メカニズムを回避している
本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T19:57:38Z) - Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
大規模言語モデル(LLM)は、有害なコンテンツを生成するよう誘導するジェイルブレイク攻撃の影響を受けやすい。
本稿では,LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection [15.780320710170043]
脱獄テクニックは、LLM(Large Language Models)を騙して制限された出力を生成し、潜在的な脅威を生じさせる。
1つの防衛線は、生成されたテキストの有害性を評価するために、別の裁判官 LLM を裁判官として使用することである。
トークンセグメンテーションバイアスを利用して既存のジェイルブレイクプロンプトを増幅する新しい戦略である絵文字アタックを導入する。
論文 参考訳(メタデータ) (2024-11-01T23:18:32Z) - Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。