論文の概要: Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control
- arxiv url: http://arxiv.org/abs/2604.19018v1
- Date: Tue, 21 Apr 2026 03:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.590074
- Title: Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control
- Title(参考訳): LLMの局所線形性はモデルベース線形最適制御による活性化ステアリングを可能にする
- Authors: Julian Skifstad, Xinyue Annie Yang, Glen Chou,
- Abstract要約: 推論時間LLMアライメント法は、生成中のアクティベーションを直接修正することで、微調整の代替となる。
複数のLLMアーキテクチャとスケールの層ワイドダイナミクスが局所線形モデルによってよく近似されていることを示す。
我々は, ステアリング性能の正式な保証を可能にするために, セットポイント追従誤差の理論的境界を導出する。
- 参考スコア(独自算出の注目度): 2.752817022620644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time LLM alignment methods, particularly activation steering, offer an alternative to fine-tuning by directly modifying activations during generation. Existing methods, however, often rely on non-anticipative interventions that ignore how perturbations propagate through transformer layers and lack online error feedback, resulting in suboptimal, open-loop control. To address this, we show empirically that, despite the nonlinear structure of transformer blocks, layer-wise dynamics across multiple LLM architectures and scales are well-approximated by locally-linear models. Exploiting this property, we model LLM inference as a linear time-varying dynamical system and adapt the classical linear quadratic regulator to compute feedback controllers using layer-wise Jacobians, steering activations toward desired semantic setpoints in closed-loop with minimal computational overhead and no offline training. We also derive theoretical bounds on setpoint tracking error, enabling formal guarantees on steering performance. Using a novel adaptive semantic feature setpoint signal, our method yields robust, fine-grained behavior control across models, scales, and tasks, including state-of-the-art modulation of toxicity, truthfulness, refusal, and arbitrary concepts, surpassing baseline steering methods. Our code is available at: https://github.com/trustworthyrobotics/lqr-activation-steering
- Abstract(参考訳): 推論時LCMアライメント法、特にアクティベーションステアリングは、生成中のアクティベーションを直接修正することで微調整の代替となる。
しかし、既存の手法は、トランスフォーマー層を通して摂動がどのように伝播するかを無視し、オンラインエラーフィードバックを欠いているため、最適でないオープンループ制御をもたらす、予期せぬ介入に依存していることが多い。
これを解決するために, 変圧器ブロックの非線形構造にもかかわらず, 複数のLLMアーキテクチャとスケールの層幅ダイナミクスが局所線形モデルによってよく近似されていることを実証的に示す。
この特性を実行し、LLM推論を線形時間変化力学系としてモデル化し、階層的ジャコビアンを用いたフィードバックコントローラの計算に古典線形二次制御系を適用し、計算オーバーヘッドが最小限でオフライントレーニングのない閉ループにおける所望のセマンティックセットポイントに向けてアクティベーションを操る。
また,設定点追跡誤差の理論的境界を導出し,ステアリング性能の正式な保証を可能にする。
新たな適応的セマンティック特徴セットポイント信号を用いて, モデル, スケール, タスク間の堅牢かつきめ細かな動作制御を導出する。
私たちのコードは、https://github.com/trustworthyrobotics/lqr-activation-steeringで利用可能です。
関連論文リスト
- ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Control-oriented meta-learning [25.316358215670274]
我々は、ニューラルネットワークを用いたデータ駆動モデリングを用いて、過去のデータからオフラインで学習し、非線形特徴の内部パラメトリックモデルによる適応制御を行う。
ベースラーナーとして閉ループ追従シミュレーションを用いた適応制御器をメタ学習し,メタ対象として平均追従誤差を推定する。
論文 参考訳(メタデータ) (2022-04-14T03:02:27Z) - Approximate Robust NMPC using Reinforcement Learning [0.0]
障害や不確実性の存在下で非線形システムを制御するための強化学習に基づくロバストモデル予測制御(RL-RNMPC)を提案する。
論文 参考訳(メタデータ) (2021-04-06T18:34:58Z) - Adaptive-Control-Oriented Meta-Learning for Nonlinear Systems [29.579737941918022]
我々は過去のデータからオフラインで学習し、非線形特徴の内部パラメトリックモデルによる適応制御を行う。
ベースランナーとして閉ループ追跡シミュレーション、メタオブジェクトとして平均トラッキングエラーで適応コントローラをメタ学習します。
非線形平面ロータークラフトを用いて,適応型コントローラが回帰型メタラーニングで学習した他のコントローラよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-03-07T23:49:59Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。