論文の概要: Endogenous Resistance to Activation Steering in Language Models
- arxiv url: http://arxiv.org/abs/2602.06941v1
- Date: Fri, 06 Feb 2026 18:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.535297
- Title: Endogenous Resistance to Activation Steering in Language Models
- Title(参考訳): 言語モデルにおけるアクティベーションステアリングに対する内因性抵抗
- Authors: Alex McKenzie, Keenan Pepper, Stijn Servaes, Martin Leitgab, Murat Cubuktepe, Mike Vaiana, Diogo de Lucena, Judd Rosenblatt, Michael S. A. Graziano,
- Abstract要約: 内因性ステアリング抵抗(ESR)と呼ぶ。
Llam-3.3-70B はかなりのESRを示すが、Llama-3 や Gemma-2 の小さなモデルでは、この現象の頻度は低い。
Llama-3.3-70Bでは,26個のSAE潜伏剤が外因性中,ESRに因果的に結合している。
- 参考スコア(独自算出の注目度): 0.4570708526639499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can resist task-misaligned activation steering during inference, sometimes recovering mid-generation to produce improved responses even when steering remains active. We term this Endogenous Steering Resistance (ESR). Using sparse autoencoder (SAE) latents to steer model activations, we find that Llama-3.3-70B shows substantial ESR, while smaller models from the Llama-3 and Gemma-2 families exhibit the phenomenon less frequently. We identify 26 SAE latents that activate differentially during off-topic content and are causally linked to ESR in Llama-3.3-70B. Zero-ablating these latents reduces the multi-attempt rate by 25%, providing causal evidence for dedicated internal consistency-checking circuits. We demonstrate that ESR can be deliberately enhanced through both prompting and training: meta-prompts instructing the model to self-monitor increase the multi-attempt rate by 4x for Llama-3.3-70B, and fine-tuning on self-correction examples successfully induces ESR-like behavior in smaller models. These findings have dual implications: ESR could protect against adversarial manipulation but might also interfere with beneficial safety interventions that rely on activation steering. Understanding and controlling these resistance mechanisms is important for developing transparent and controllable AI systems. Code is available at github.com/agencyenterprise/endogenous-steering-resistance.
- Abstract(参考訳): 大規模言語モデルは、推論中にタスクミスしたアクティベーションステアリングに抵抗し、時には中世代を回復して、ステアリングがアクティブでも改善された応答を生成する。
内因性ステアリング抵抗 (endogenous Steering resistance, ESR) と呼ぶ。
スパースオートエンコーダ (SAE) を用いてモデル活性化を操ると、Llama-3.3-70BがかなりESRを示し、Llama-3およびGemma-2ファミリーのより小さなモデルでは頻度が低いことが分かる。
Llama-3.3-70Bでは,26個のSAE潜伏剤が外因性中,ESRに因果的に結合している。
これらの潜伏剤をゼロにすることで、マルチタッチ率を25%削減し、内部整合性検査専用回路の因果的証拠を提供する。
メタプロンプトは、Llama-3.3-70Bのマルチタスク率を4倍に向上させ、自己補正例の微調整は、より小さなモデルでESRのような振る舞いを誘発する。
ESRは敵の操作から保護するが、アクティベーションステアリングに依存する有益な安全介入を阻害する可能性がある。
これらの抵抗機構の理解と制御は、透明で制御可能なAIシステムを開発する上で重要である。
コードはgithub.com/agencyenterprise/endogenous-steering-resistanceで入手できる。
関連論文リスト
- Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - Evaluating False Alarm and Missing Attacks in CAN IDS [0.7734726150561088]
ROADデータセットを用いて,CAN IDSの体系的対角評価を行う。
4つの浅い学習モデルとディープニューラルネットワークベースの検出器を比較した。
以上の結果から,敵の操作が誤報と回避検出を同時に引き起こすことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T20:38:01Z) - Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Sequence-Preserving Dual-FoV Defense for Traffic Sign and Light Recognition in Autonomous Vehicles [0.07646713951724012]
本研究では,米国における信号機と信号機のための二重FoV,シーケンス保存型ロバストネスフレームワークを提案する。
実生活における異常検出の応用に関する一連の実験において、本研究では、統一された3層防御スタックフレームワークの概要を概説する。
論文 参考訳(メタデータ) (2025-10-03T00:43:25Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。