論文の概要: Speculative Safety-Aware Decoding
- arxiv url: http://arxiv.org/abs/2508.17739v1
- Date: Mon, 25 Aug 2025 07:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.673346
- Title: Speculative Safety-Aware Decoding
- Title(参考訳): 投機的安全意識デコード
- Authors: Xuekang Wang, Shengyu Zhu, Xueqi Cheng,
- Abstract要約: 提案手法は,大規模言語モデルに所望の安全性特性を付与し,推論を高速化する軽量な復号時間方式である。
SSDはデコード中の投機的サンプリングを統合し、小型モデルと複合モデルとのマッチング比を利用してジェイルブレイクのリスクを定量化する。
実験の結果,SSDは大きなモデルに所望の安全性特性を持たせることができた。
- 参考スコア(独自算出の注目度): 46.78651034593231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive efforts to align Large Language Models (LLMs) with human values and safety rules, jailbreak attacks that exploit certain vulnerabilities continuously emerge, highlighting the need to strengthen existing LLMs with additional safety properties to defend against these attacks. However, tuning large models has become increasingly resource-intensive and may have difficulty ensuring consistent performance. We introduce Speculative Safety-Aware Decoding (SSD), a lightweight decoding-time approach that equips LLMs with the desired safety property while accelerating inference. We assume that there exists a small language model that possesses this desired property. SSD integrates speculative sampling during decoding and leverages the match ratio between the small and composite models to quantify jailbreak risks. This enables SSD to dynamically switch between decoding schemes to prioritize utility or safety, to handle the challenge of different model capacities. The output token is then sampled from a new distribution that combines the distributions of the original and the small models. Experimental results show that SSD successfully equips the large model with the desired safety property, and also allows the model to remain helpful to benign queries. Furthermore, SSD accelerates the inference time, thanks to the speculative sampling design.
- Abstract(参考訳): 大きな言語モデル(LLM)を人的価値と安全ルールと整合させる大規模な努力にもかかわらず、特定の脆弱性を継続的に悪用するジェイルブレイク攻撃が出現し、これらの攻撃を防御するために既存のLLMを強化する必要性が強調された。
しかし、大規模モデルのチューニングはますますリソース集約化され、一貫したパフォーマンスの確保が困難になる可能性がある。
推論を高速化しながら, LLMに所望の安全性特性を付与する軽量な復号時間方式であるSpeculative Safety-Aware Decoding(SSD)を導入する。
この望ましい性質を持つ小さな言語モデルが存在すると仮定する。
SSDはデコード中の投機的サンプリングを統合し、小さなモデルと複合モデルとのマッチング比を利用してジェイルブレイクのリスクを定量化する。
これにより、SSDは復号方式を動的に切り替えて実用性や安全性を優先し、異なるモデル能力の課題に対処することができる。
出力トークンは、元の分布と小さなモデルの分布を組み合わせた新しい分布からサンプリングされる。
実験の結果,SSDは大きなモデルに所望の安全性特性を持たせることができた。
さらに、SSDは投機的なサンプリング設計のおかげで、推論時間を短縮する。
関連論文リスト
- SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models [59.217270662809696]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに優れるが、ジェイルブレイク攻撃には弱い。
本稿では,モデル固有の差別と生成能力の整合性を検討する。
我々の方法は、トレーニングフェーズ中に追加の注釈付きデータや外部モデルを必要としない。
論文 参考訳(メタデータ) (2025-08-21T15:26:09Z) - Jailbreaking Large Language Diffusion Models: Revealing Hidden Safety Flaws in Diffusion-Based Text Generation [7.857304417560443]
拡散型言語モデルのための PArallel Decoding jailbreak (PAD) を提案する。
PADはジェイルブレイク攻撃の成功率を97%向上させ、重大な安全性上の脆弱性を明らかにしている。
自己回帰型大規模言語モデル (LLM) と比較して, LLDMは有害な生成速度を2倍に向上させる。
論文 参考訳(メタデータ) (2025-07-25T12:53:03Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
既存のメソッドは、インストラクションチューニングのための現実世界の脆弱性からセキュリティに焦点を当てたデータセットを収集する。
コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新しいプロアクティブなセキュリティアライメントアプローチであるProSecを提案する。
論文 参考訳(メタデータ) (2024-11-19T22:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。