論文の概要: Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories
- arxiv url: http://arxiv.org/abs/2606.04778v1
- Date: Wed, 03 Jun 2026 12:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.729931
- Title: Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories
- Title(参考訳): 安全度を超越した推論時間脆弱性:生成軌道に沿ったアライメント
- Authors: Kyungmin Park, Taesup Kim,
- Abstract要約: 安全に整合した大規模言語モデル(LLM)は、有害な出力に向けて生成をリダイレクトする推論の介入に対して脆弱なままである。
最近の作業は、アライメントが最初の数個の出力トークンに集中する、浅い安全性に起因する。
任意の生成段階における短いトークン注入は、その後の安全行動を大幅に変化させる可能性があることを示す。
- 参考スコア(独自算出の注目度): 9.386028796990399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model's alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.
- Abstract(参考訳): 安全に整合した大規模言語モデル(LLM)は、有害な出力に向けて生成をリダイレクトする推論の介入に対して脆弱なままである。
最近の作業は、アライメントが最初の数個の出力トークンに集中する、浅い安全性に起因する。
浅層安全性は,任意の生成段階における短いトークン注入がその後の安全行動を大幅に変化させるような,より広範な推論時脆弱性の特殊な事例であることを示す。
また, 内部状態だけでは摂動時の生成挙動を決定できないこと, 隠れ状態におけるモデル方向の整合性は, そのような注入に対する頑健さを予測できないこと, また, 内部状態だけでは摂動時の生成挙動を決定できないこと, などを明らかにした。
そこで本研究では,中間系列の摂動をシミュレートして構築した生成軌道に直接モデルをアライメントし,これにより,中間系列のインジェクションに対するロバスト性が向上し,初期トーケン生成を利用した攻撃に一般化されることを示す。
私たちの研究は、堅牢な安全アライメントは、出力だけでなく、生成プロセス自体のトレーニングを必要としている、と論じています。
関連論文リスト
- When Autoregressive Consistency Hurts Safety Alignment [20.12397699480725]
自動回帰一貫性は、初期トークンのアライメント更新に集中できることを示す。
同じメカニズムは、大規模言語モデルに対するより広範な攻撃のクラスを予測する。
最悪の有害な継続状態に基づく初期枠組みである敵の安全アライメントを提案する。
論文 参考訳(メタデータ) (2026-06-02T19:32:23Z) - Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - When Should We Introduce Safety Interventions During Pretraining? [100.3502954292386]
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
論文 参考訳(メタデータ) (2026-01-11T22:38:17Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Backtracking for Safety [11.141166381133054]
大規模言語モデル(LLM)は、様々なタスクにわたって顕著な能力を示してきたが、その安全性と人間の価値との整合性は依然として不可欠である。
教師付き微調整や強化学習に基づくアプローチのような現在の安全アライメント手法は、敵の攻撃に対する脆弱性を示す可能性がある。
本稿では,これらの制約に対処する新しいバックトラック手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T22:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。