論文の概要: MetaBreak: Jailbreaking Online LLM Services via Special Token Manipulation
- arxiv url: http://arxiv.org/abs/2510.10271v1
- Date: Sat, 11 Oct 2025 16:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.868823
- Title: MetaBreak: Jailbreaking Online LLM Services via Special Token Manipulation
- Title(参考訳): MetaBreak: 特別なトークン操作によるオンラインLLMサービスの脱獄
- Authors: Wentian Zhu, Zhen Xiang, Wei Niu, Le Guan,
- Abstract要約: 大規模言語モデルの微調整プロセス中に、構造化された会話に注釈を付けるために特別なトークンが作成されます。
攻撃プリミティブを4つ構築するために特別なトークンを利用することができることを示す。
本手法は,コンテンツモデレーションが展開されない場合,SOTAプロンプトエンジニアリングソリューションに匹敵するジェイルブレイク率を実現する。
- 参考スコア(独自算出の注目度): 16.48157553847625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike regular tokens derived from existing text corpora, special tokens are artificially created to annotate structured conversations during the fine-tuning process of Large Language Models (LLMs). Serving as metadata of training data, these tokens play a crucial role in instructing LLMs to generate coherent and context-aware responses. We demonstrate that special tokens can be exploited to construct four attack primitives, with which malicious users can reliably bypass the internal safety alignment of online LLM services and circumvent state-of-the-art (SOTA) external content moderation systems simultaneously. Moreover, we found that addressing this threat is challenging, as aggressive defense mechanisms-such as input sanitization by removing special tokens entirely, as suggested in academia-are less effective than anticipated. This is because such defense can be evaded when the special tokens are replaced by regular ones with high semantic similarity within the tokenizer's embedding space. We systemically evaluated our method, named MetaBreak, on both lab environment and commercial LLM platforms. Our approach achieves jailbreak rates comparable to SOTA prompt-engineering-based solutions when no content moderation is deployed. However, when there is content moderation, MetaBreak outperforms SOTA solutions PAP and GPTFuzzer by 11.6% and 34.8%, respectively. Finally, since MetaBreak employs a fundamentally different strategy from prompt engineering, the two approaches can work synergistically. Notably, empowering MetaBreak on PAP and GPTFuzzer boosts jailbreak rates by 24.3% and 20.2%, respectively.
- Abstract(参考訳): 既存のテキストコーパスから派生した通常のトークンとは異なり、LLM(Large Language Models)の微調整過程において、構造化された会話に注釈を付けるために特別なトークンが人工的に作成される。
トレーニングデータのメタデータとして機能するこれらのトークンは、コヒーレントでコンテキスト対応の応答を生成するためにLLMに指示する上で重要な役割を果たす。
攻撃プリミティブを4つ構築するために特別なトークンを利用でき、悪意のあるユーザはオンラインLLMサービスの内部安全アライメントを確実に回避し、SOTA(State-of-the-art)外部コンテンツモデレーションシステムを同時に回避できる。
さらに,この脅威に対処する上で,特別なトークンを完全に取り除くことで,入力衛生化などの攻撃的な防御機構が期待するよりも効果が低いことが判明した。
これは、特別なトークンがトークンの埋め込み空間内で高い意味的類似性を持つ通常のトークンに置き換えられたとき、そのような防御を回避することができるためである。
実験室環境と商用LLMプラットフォームの両方で,MetaBreakという手法を体系的に評価した。
本手法は,コンテンツモデレーションが展開されない場合,SOTAプロンプトエンジニアリングベースのソリューションに匹敵するジェイルブレイク率を実現する。
しかし、コンテンツモデレーションがある場合、MetaBreakはSOTAソリューションのPAPとGPTFuzzerをそれぞれ11.6%、GPTFuzzerは34.8%上回っている。
最後に、MetaBreakはプロンプトエンジニアリングと根本的に異なる戦略を採用しているため、2つのアプローチは相乗的に機能する。
特に、PAPとGPTFuzzerでMetaBreakに権限を与えると、それぞれ24.3%、20.2%のジェイルブレイク率が向上する。
関連論文リスト
- Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning [48.100552417137656]
PASSは、初期のジェイルブレイクプロンプトを形式化された記述に変換するために強化学習を使用している。
我々は、共通のオープンソースモデルに関する広範な実験を行い、攻撃の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T01:38:00Z) - Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is [8.214994509812724]
大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に対して脆弱である。
本稿では,非専門家が安全メカニズムを確実に回避する方法について,システムスタイルの考察を行う。
本稿では,テキスト出力モデルとT2Iモデルの両方にまたがる,即時レベルのジェイルブレイク戦略の統一分類法を提案する。
論文 参考訳(メタデータ) (2025-07-29T13:55:23Z) - Lifelong Safety Alignment for Language Models [33.90238075760236]
本稿では,脱獄防御のための生涯安全アライメントフレームワークを提案する。
メタアタッカーは、新しいジェイルブレイク戦略を積極的に発見するために訓練され、ディフェンダーは彼らに対抗するために訓練される。
我々のフレームワークはMeta-Attackerの成功率を7%に削減し、LLMのより安全で信頼性の高いデプロイを可能にします。
論文 参考訳(メタデータ) (2025-05-26T17:40:40Z) - Prefill-level Jailbreak: A Black-Box Risk Analysis of Large Language Models [6.049325292667881]
本報告では,プリフィルレベルジェイルブレイク攻撃のブラックボックスセキュリティ解析について述べる。
実験の結果,いくつかのモデルでは適応手法が99%を超え,プレフィルレベル攻撃が高い成功率を達成することが示された。
その結果,プロンプトとプリフィルの操作関係に着目した検出法がより効果的であることが判明した。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。