論文の概要: Gradient-Controlled Decoding: A Safety Guardrail for LLMs with Dual-Anchor Steering
- arxiv url: http://arxiv.org/abs/2604.05179v1
- Date: Mon, 06 Apr 2026 21:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.494979
- Title: Gradient-Controlled Decoding: A Safety Guardrail for LLMs with Dual-Anchor Steering
- Title(参考訳): グラディエント制御デコード:デュアルアンカーステアリングによるLDMの安全ガードレール
- Authors: Purva Chiniya, Kevin Scaria, Sagar Chaturvedi,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイクや直接的インジェクション攻撃の影響を受けやすいままである。
本稿では、受け入れアンカートークン("Sure")と拒否アンカートークン("Sorry")を組み合わせたトレーニングフリーガードレールであるグラディエント制御デコーディング(GCD)を紹介する。
GCDは、同等のリコールで偽陽性を52%、GradSafeを52%削減し、攻撃成功率を10%まで下げる。
- 参考スコア(独自算出の注目度): 1.9237694458888568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) remain susceptible to jailbreak and direct prompt-injection attacks, yet the strongest defensive filters frequently over-refuse benign queries and degrade user experience. Previous work on jailbreak and prompt injection detection such as GradSafe, detects unsafe prompts with a single "accept all" anchor token, but its threshold is brittle and it offers no deterministic guarantee that harmful content will not be emitted once decoding begins. We introduce Gradient-Controlled Decoding (GCD), a training-free guardrail that combines an acceptance anchor token ("Sure") and refusal anchor token ("Sorry") tightening the decision boundary and significantly lowering false positives. In the mitigation stage, if a prompt is flagged, GCD preset-injects one or two refusal tokens ("Sorry, I can't...") before autoregressive decoding resumes, guaranteeing first-token safety regardless of sampling strategy. On ToxicChat, XSTest-v2, and AdvBench, GCD reduces false positives by 52% vs. GradSafe at comparable recall, lowers attack success rate by up to 10% vs. the strongest decoding-only baseline, adds under 15-20 ms latency on an average on V100 instances, transfers to LLaMA-2-7B, Mixtral-8x7B, and Qwen-2-7B, and requires only 20 demonstration templates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ジェイルブレイクや直接的インジェクション攻撃の影響を受けやすいが、最強の防御フィルタは、しばしば良質なクエリを過度に再利用し、ユーザエクスペリエンスを劣化させる。
GradSafeは単一の"accept all"アンカートークンで安全でないプロンプトを検出するが、しきい値が不安定であり、デコードが開始されると有害なコンテンツが放出されないという決定論的保証を提供する。
本稿では,受入アンカートークン(Sure)と拒絶アンカートークン(Sorry)を組み合わせたトレーニングフリーガードレールであるグラディエント制御デコーディング(GCD)を導入する。
緩和段階では、プロンプトがフラグ付けされた場合、GCDは自己回帰復号が再開する前に1つまたは2つの拒絶トークン(「Sorry, I can't...」)をプリセットし、サンプリング戦略によらず第一の安全を保証する。
ToxicChat、XSTest-v2、AdvBenchでは、GCDは偽陽性を同等リコール時のGradSafeに対して52%削減し、攻撃成功率を最大10%まで下げ、V100インスタンス上で平均15~20msのレイテンシを追加し、LLaMA-2-7B、Mixtral-8x7B、Qwen-2-7Bに転送する。
関連論文リスト
- SelfGrader: Stable Jailbreak Detection for Large Language Models using Token-Level Logits [11.826762642822219]
大きな言語モデル(LLM)は、ユーザクエリに応答する強力なツールだが、Jailbreak攻撃に対して非常に脆弱である。
トークンレベルのロジットを用いた数値グレーディング問題としてジェイルブレイク検出を定式化する軽量ガードレールであるSelfGraderを提案する。
SelfGraderは、LLaMA-3-8B上で最大22.66%のASR削減を実現し、メモリオーバーヘッド(最大173倍)とレイテンシ(最大26倍)を大幅に低減した。
論文 参考訳(メタデータ) (2026-04-01T23:29:12Z) - ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification [47.135407245022115]
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
論文 参考訳(メタデータ) (2026-01-07T05:30:53Z) - The Trojan Example: Jailbreaking LLMs through Template Filling and Unsafety Reasoning [47.85771791033142]
TrojFillはブラックボックスのジェイルブレイクで、安全でない命令をテンプレート入力タスクとして再設定する。
我々はTrojFillを、主要な大規模言語モデルにまたがる標準ジェイルブレイクベンチマークで評価する。
生成されたプロンプトは、以前のブラックボックス最適化アプローチと比較して、解釈可能性と転送可能性が改善されている。
論文 参考訳(メタデータ) (2025-10-24T06:43:10Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z) - GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis [9.225253610200207]
LLMにおける安全クリティカルパラメータの勾配を精査し,脱獄プロンプトを効果的に検出するGradSafeを提案する。
LLMのジェイルブレイクに対する損失の勾配は、コンプライアンス応答と組み合わせることで、特定の安全クリティカルパラメータに類似したパターンを示す。
GradSafeはLlama Guardよりも優れていますが、大きなデータセットで微調整されています。
論文 参考訳(メタデータ) (2024-02-21T03:09:21Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。