論文の概要: Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence
- arxiv url: http://arxiv.org/abs/2604.08169v1
- Date: Thu, 09 Apr 2026 12:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.912148
- Title: Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence
- Title(参考訳): コヒーレンスを犠牲にしない配向型オープンエンドジェネレーションの活性化ステアリング
- Authors: Niklas Herbster, Martin Zborowski, Alberto Tosato, Gauthier Gidel, Tommaso Tosato,
- Abstract要約: ミスアライメントは、敵対的なプロンプト、良心的な微調整、創発的なミスアライメント、目標のミスジェネレーションによって引き起こされる。
最近の証拠は、いくつかの不整合挙動が活性化空間の線形構造としてコード化され、操舵によって牽引可能であることを示唆している。
これらの知見は, 世代ごとのアクティベーションの不一致を継続的に補正する軽量なランタイムディフェンスとして, アクティベーションステアリングを動機付けている。
- 参考スコア(独自算出の注目度): 16.403654360036498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment in LLMs is more brittle than commonly assumed: misalignment can be triggered by adversarial prompts, benign fine-tuning, emergent misalignment, and goal misgeneralization. Recent evidence suggests that some misalignment behaviors are encoded as linear structure in activation space, making it tractable via steering, while safety alignment has been shown to govern the first few output tokens primarily, leaving subsequent generation unguarded. These findings motivate activation steering as a lightweight runtime defense that continuously corrects misaligned activations throughout generation. We evaluate three methods: Steer-With-Fixed-Coeff (SwFC), which applies uniform additive steering, and two novel projection-aware methods, Steer-to-Target-Projection (StTP) and Steer-to-Mirror-Projection (StMP), that use a logistic regression decision boundary to selectively intervene only on tokens whose activations fall below distributional thresholds. Using malicious system prompts as a controlled proxy for misalignment, we evaluate under two threat models (dishonesty and dismissiveness) and two architectures (Llama-3.3-70B-Instruct, Qwen3-32B). All methods substantially recover target traits (honesty and compassion) while preserving coherence. StTP and StMP better maintain general capabilities (MMLU, MT-Bench, AlpacaEval) and produce less repetition in multi-turn conversations.
- Abstract(参考訳): LLMにおけるアライメントは、一般的に想定されるよりも不安定である: ミスアライメントは、敵のプロンプト、良質な微調整、創発的なミスアライメント、ゴールのミスジェネレーションによって引き起こされる。
最近の証拠は、いくつかの不整合挙動が活性化空間の線形構造としてコード化され、ステアリングによって牽引可能であることを示唆しており、一方、安全アライメントは最初の数個の出力トークンを主に支配し、その後の世代は守られていない。
これらの知見は, 世代ごとのアクティベーションの不一致を継続的に補正する軽量なランタイムディフェンスとして, アクティベーションステアリングを動機付けている。
均一な付加的ステアリングを施すステア・ウィット・フィクスド・コーフ(SwFC)と2つの新しいプロジェクション・アウェア法であるステア・トゥ・ターゲット・プロジェクション(StTP)とステア・トゥ・ミラー・プロジェクション(StMP)の3つの手法を評価し、ロジスティック回帰決定境界を用いて、アクティベーションが分布閾値を下回るトークンのみに選択的に介入する。
悪意のあるシステムプロンプトを不正調整の制御プロキシとして使用し、2つの脅威モデル(正直さと否定性)と2つのアーキテクチャ(Llama-3.3-70B-Instruct, Qwen3-32B)で評価する。
すべての方法は、コヒーレンスを維持しながら、ターゲット特性(正直さと慈悲)を実質的に回復する。
StTPとStMPは一般機能(MMLU、MT-Bench、AlpacaEval)をよりよく維持し、マルチターン会話においてより少ない繰り返しを生成する。
関連論文リスト
- Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - We Think, Therefore We Align LLMs to Helpful, Harmless and Honest Before They Go Wrong [19.134202394422285]
Adaptive Multi-Branch Steering (AMBS) は、統合された効率的な多目的アライメントのための2段階の1-Nフレームワークである。
AMBSは、複数の7B LLMバックボーン間のHHHアライメントを一貫して改善する。
論文 参考訳(メタデータ) (2025-09-26T15:52:21Z) - TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。