論文の概要: When Autoregressive Consistency Hurts Safety Alignment
- arxiv url: http://arxiv.org/abs/2606.04168v1
- Date: Tue, 02 Jun 2026 19:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.353841
- Title: When Autoregressive Consistency Hurts Safety Alignment
- Title(参考訳): 自己回帰的一貫性が安全性を損なうとき
- Authors: Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu,
- Abstract要約: 自動回帰一貫性は、初期トークンのアライメント更新に集中できることを示す。
同じメカニズムは、大規模言語モデルに対するより広範な攻撃のクラスを予測する。
最悪の有害な継続状態に基づく初期枠組みである敵の安全アライメントを提案する。
- 参考スコア(独自算出の注目度): 20.12397699480725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in large language models (LLMs) is fragile in part because it is often shallow: fine-tuning mainly reshapes the model's behavior near the first few output tokens. We argue that this phenomenon can be understood through autoregressive consistency, the tendency of next-token prediction to preserve and extend the current response trajectory consistently. By analyzing the learning dynamics of safety alignment, we show that autoregressive consistency can concentrate alignment updates on early tokens, offering a mechanistic explanation for shallow safety alignment. The same mechanism also predicts a broader class of attacks on LLMs: attacks that induce harmful continuation states at arbitrary positions in the output trajectory. As a concrete example, we introduce random insertion attack, which inserts a short harmful span into an otherwise safe refusal trajectory and exploits autoregressive consistency to sustain the resulting harmful branch, thereby bypassing safety alignment. Notably, a short harmful span can redirect the generation to be harmful even after a long refusal prefix, highlighting autoregressive consistency as a potential broader failure mechanism. This suggests that safety alignment should also break harmful autoregressive consistency throughout the output trajectory. We therefore propose adversarial safety alignment, an initial framework based on worst-case harmful continuation states, and instantiate it with random worst-insertion training. Overall, our results suggest that autoregressive consistency should be treated as a central consideration in both safety alignment and attack design.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性のアライメントは、しばしば浅いため脆弱である。
この現象は, 自己回帰的整合性(自己回帰的整合性)によって理解することができると論じる。
安全アライメントの学習力学を解析することにより、自己回帰一貫性が早期トークンのアライメント更新に集中できることを示し、浅層安全アライメントの機械的説明を提供する。
同じメカニズムはLLMに対するより広範な攻撃を予測し、出力軌道内の任意の位置で有害な継続状態を引き起こす攻撃である。
具体的な例として,安全でない軌道に短い有害なスパンを挿入するランダム挿入攻撃を導入し,自己回帰的整合性を利用して有害な分岐を持続させ,安全アライメントを回避した。
特に、短い有害なスパンは、長い拒絶プレフィックスの後にも、その生成を有害にリダイレクトすることができ、潜在的に広範な障害機構として自己回帰一貫性を強調する。
このことは、安全アライメントが出力軌道全体で有害な自己回帰的一貫性を損なうことも示唆している。
そこで我々は, 最悪の有害な継続状態に基づく初期枠組みである敵の安全アライメントを提案し, ランダムな最悪の挿入訓練を施してインスタンス化する。
以上より, 安全アライメントとアタックデザインの両面において, 自己回帰整合性は中心的な考慮事項として扱われるべきであることが示唆された。
関連論文リスト
- Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories [9.386028796990399]
安全に整合した大規模言語モデル(LLM)は、有害な出力に向けて生成をリダイレクトする推論の介入に対して脆弱なままである。
最近の作業は、アライメントが最初の数個の出力トークンに集中する、浅い安全性に起因する。
任意の生成段階における短いトークン注入は、その後の安全行動を大幅に変化させる可能性があることを示す。
論文 参考訳(メタデータ) (2026-06-03T12:01:27Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Understanding and Preserving Safety in Fine-Tuned LLMs [20.821783178639063]
微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。
低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。
SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
論文 参考訳(メタデータ) (2026-01-15T07:33:13Z) - When Should We Introduce Safety Interventions During Pretraining? [100.3502954292386]
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
論文 参考訳(メタデータ) (2026-01-11T22:38:17Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safety Alignment Should Be Made More Than Just a Few Tokens Deep [48.823599143711235]
現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。
比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。
最初の数個のトークン以上の安全性アライメントの強化は、一般的なエクスプロイトに対するロバスト性を大幅に向上させる可能性があることを、私たちは示しています。
論文 参考訳(メタデータ) (2024-06-10T00:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。