論文の概要: Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously
- arxiv url: http://arxiv.org/abs/2512.11783v1
- Date: Fri, 12 Dec 2025 18:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.87668
- Title: Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously
- Title(参考訳): スーパーサフィックス:テキスト生成アライメントとガードモデルを同時にバイパスする
- Authors: Andrew Adiletta, Kathryn Adiletta, Kemal Derya, Berk Sunar,
- Abstract要約: 大規模言語モデル(LLM)はテキスト入力の処理や実行可能なコード生成にますます利用されている。
LLMはテキスト入力の処理や実行可能コードの生成にますます使われています。
いくつかの企業がガードモデルを導入しており、テキスト生成モデルが敵または悪意のある入力から保護されるように設計された、より小型で特殊なモデルである。
- 参考スコア(独自算出の注目度): 1.2972852925029712
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid deployment of Large Language Models (LLMs) has created an urgent need for enhanced security and privacy measures in Machine Learning (ML). LLMs are increasingly being used to process untrusted text inputs and even generate executable code, often while having access to sensitive system controls. To address these security concerns, several companies have introduced guard models, which are smaller, specialized models designed to protect text generation models from adversarial or malicious inputs. In this work, we advance the study of adversarial inputs by introducing Super Suffixes, suffixes capable of overriding multiple alignment objectives across various models with different tokenization schemes. We demonstrate their effectiveness, along with our joint optimization technique, by successfully bypassing the protection mechanisms of Llama Prompt Guard 2 on five different text generation models for malicious text and code generation. To the best of our knowledge, this is the first work to reveal that Llama Prompt Guard 2 can be compromised through joint optimization. Additionally, by analyzing the changing similarity of a model's internal state to specific concept directions during token sequence processing, we propose an effective and lightweight method to detect Super Suffix attacks. We show that the cosine similarity between the residual stream and certain concept directions serves as a distinctive fingerprint of model intent. Our proposed countermeasure, DeltaGuard, significantly improves the detection of malicious prompts generated through Super Suffixes. It increases the non-benign classification rate to nearly 100%, making DeltaGuard a valuable addition to the guard model stack and enhancing robustness against adversarial prompt attacks.
- Abstract(参考訳): LLM(Large Language Models)の迅速なデプロイは、機械学習(ML)におけるセキュリティとプライバシ対策の強化に緊急の必要性を生み出した。
LLMは、信頼できないテキスト入力を処理したり、しばしば機密性の高いシステム制御にアクセスしながら実行可能なコードを生成するのにますます使われています。
これらのセキュリティ上の問題に対処するため、いくつかの企業がガードモデルを導入している。
本研究では,異なるトークン化方式を用いて,複数のアライメント対象をオーバーライド可能なスーパー接尾辞(Super Suffixes)を導入することで,逆入力の研究を進めた。
我々は,Llama Prompt Guard 2の保護機構を,悪意のあるテキストとコード生成のための5つの異なるテキスト生成モデルで回避し,その有効性を示す。
我々の知る限りでは、これはLlama Prompt Guard 2が共同最適化によって妥協できることを明らかにする最初の研究である。
さらに、トークンシーケンス処理中にモデルの内部状態と特定の概念方向との類似性を変化させることにより、スーパーサフィックス攻撃を検出するための効果的で軽量な手法を提案する。
残差ストリームと特定の概念方向とのコサイン類似性は,モデル意図の特異な指紋として機能することを示す。
提案手法であるDeltaGuardは,Super Suffixesを通じて発生する悪意のあるプロンプトの検出を大幅に改善する。
DeltaGuardはガードモデルスタックに付加価値があり、敵のプロンプト攻撃に対する堅牢性を高める。
関連論文リスト
- SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation [4.893110077312707]
本研究では,大規模モデルの解釈可能性を活用するブラックボックス攻撃手法を提案する。
Sparse Feature Perturbation Framework (SFPF) を導入する。
実験結果から,SFPFが生成した対向テキストは,最先端の防御機構をバイパスできることが示された。
論文 参考訳(メタデータ) (2025-08-14T07:12:44Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - ConfGuard: A Simple and Effective Backdoor Detection for Large Language Models [23.236088751922807]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
既存の防衛手法の多くは、主に分類タスクのために設計されており、自己回帰性やLLMの膨大な出力空間に対して効果がない。
本稿では,トークンの信頼度をスライディングウィンドウに監視してシーケンスロックを識別する,軽量かつ効果的な検出手法ConfGuardを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:38:04Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。