論文の概要: Matching Ranks Over Probability Yields Truly Deep Safety Alignment
- arxiv url: http://arxiv.org/abs/2512.05518v1
- Date: Fri, 05 Dec 2025 08:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.95505
- Title: Matching Ranks Over Probability Yields Truly Deep Safety Alignment
- Title(参考訳): 予想上回る格付け、完全な安全確保を狙う
- Authors: Jason Vega, Gagandeep Singh,
- Abstract要約: 近年の研究では、データ拡張を用いた教師付き微調整(SFT)ディフェンスを提案して、列挙された深度安全アライメントを実現した。
このようなアプローチによって作り出される"ディープ"な安全アライメントは、実際にはそれほど深くないことを示す。
本稿では,その確率ではなく,目標分布のトークンランクを一致させることにより,より深い安全アライメントを実現するための新たな視点を提案する。
- 参考スコア(独自算出の注目度): 8.692532301315135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A frustratingly easy technique known as the prefilling attack has been shown to effectively circumvent the safety alignment of frontier LLMs by simply prefilling the assistant response with an affirmative prefix before decoding. In response, recent work proposed a supervised fine-tuning (SFT) defense using data augmentation to achieve a \enquote{deep} safety alignment, allowing the model to generate natural language refusals immediately following harmful prefills. Unfortunately, we show in this work that the "deep" safety alignment produced by such an approach is in fact not very deep. A generalization of the prefilling attack, which we refer to as the Rank-Assisted Prefilling (RAP) attack, can effectively extract harmful content from models fine-tuned with the data augmentation defense by selecting low-probability "harmful" tokens from the top 20 predicted next tokens at each step (thus ignoring high-probability "refusal" tokens). We argue that this vulnerability is enabled due to the "gaming" of the SFT objective when the target distribution entropies are low, where low fine-tuning loss is achieved by shifting large probability mass to a small number of refusal tokens while neglecting the high ranks of harmful tokens. We then propose a new perspective on achieving deep safety alignment by matching the token ranks of the target distribution, rather than their probabilities. This perspective yields a surprisingly simple fix to the data augmentation defense based on regularizing the attention placed on harmful prefill tokens, an approach we call PRefill attEntion STOpping (PRESTO). Adding PRESTO yields up to a 4.7x improvement in the mean StrongREJECT score under RAP attacks across three popular open-source LLMs, with low impact to model utility.
- Abstract(参考訳): プリフィル攻撃(prefilling attack)として知られるフラストレーションに簡単な手法が示されており、デコード前にアシスタント応答に肯定的なプレフィックスを埋め込むことで、フロンティアLSMの安全性アライメントを効果的に回避することが示されている。
これに対し、近年の研究では、データ拡張を用いた教師付き微調整(SFT)ディフェンスを提案し、有害なプリフィルの直後に自然言語の拒絶を生成できる「enquote{deep} safety alignment」を実現した。
残念なことに、このようなアプローチによって生み出された"ディープ"な安全アライメントは、実際にはそれほど深くないことを示している。
各ステップにおいて、上位20の予測された次のトークンから、低確率の「有害」トークンを選択することにより、データ強化防御で微調整されたモデルから有害なコンテンツを効果的に抽出することができる(高確率の「拒否」トークンを無視している)。
この脆弱性は、ターゲット分布のエントロピーが低い場合のSFT目標の「ゲーミング」により可能であり、有害なトークンのランクを無視しながら、大きな確率質量を少数の拒否トークンにシフトすることで、微調整の損失が低い場合に有効である、と我々は主張する。
そこで我々は,その確率ではなく,目標分布のトークンランクを一致させることにより,より深い安全アライメントを実現するための新たな視点を提案する。
この観点は、有害なプリフィルトークンに置かれる注意を規則化する、PRefill attEntion Stopping (PRESTO)と呼ばれるアプローチに基づいて、データ拡張防衛を驚くほど簡単に修正します。
PRESTOを追加すると、RAP攻撃下でのStrongREJECTの平均スコアが4.7倍向上し、3つの人気のあるオープンソース LLM にまたがる。
関連論文リスト
- Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth [19.670368480802725]
提案するAny-Depth Alignment(ADA)は,オーバーヘッドを無視できる効果的な推論時防御法である。
ADAは有害性を再評価し、世代毎に拒絶を回復するモデルを誘導する。
数十から数千のトークンにわたる敵のプリフィル攻撃に対して、約100%の拒絶率を確保している。
論文 参考訳(メタデータ) (2025-10-20T20:18:59Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Safety Alignment Should Be Made More Than Just a Few Tokens Deep [48.823599143711235]
現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。
比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。
最初の数個のトークン以上の安全性アライメントの強化は、一般的なエクスプロイトに対するロバスト性を大幅に向上させる可能性があることを、私たちは示しています。
論文 参考訳(メタデータ) (2024-06-10T00:35:23Z) - Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries [22.24239212756129]
複数のシーケンス(eos)トークンを単に追加するだけで、コンテキストセグメンテーションと呼ばれる現象が発生します。
本稿では, eos トークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。