論文の概要: Activation Steering with a Feedback Controller
- arxiv url: http://arxiv.org/abs/2510.04309v1
- Date: Sun, 05 Oct 2025 18:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.575948
- Title: Activation Steering with a Feedback Controller
- Title(参考訳): フィードバックコントローラを用いたアクティベーションステアリング
- Authors: Dung V. Nguyen, Hieu M. Vu, Nhi Y. Pham, Lei Zhang, Tan M. Nguyen,
- Abstract要約: Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
- 参考スコア(独自算出の注目度): 4.609594868699996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling the behaviors of large language models (LLM) is fundamental to their safety alignment and reliable deployment. However, existing steering methods are primarily driven by empirical insights and lack theoretical performance guarantees. In this work, we develop a control-theoretic foundation for activation steering by showing that popular steering methods correspond to the proportional (P) controllers, with the steering vector serving as the feedback signal. Building on this finding, we propose Proportional-Integral-Derivative (PID) Steering, a principled framework that leverages the full PID controller for activation steering in LLMs. The proportional (P) term aligns activations with target semantic directions, the integral (I) term accumulates errors to enforce persistent corrections across layers, and the derivative (D) term mitigates overshoot by counteracting rapid activation changes. This closed-loop design yields interpretable error dynamics and connects activation steering to classical stability guarantees in control theory. Moreover, PID Steering is lightweight, modular, and readily integrates with state-of-the-art steering methods. Extensive experiments across multiple LLM families and benchmarks demonstrate that PID Steering consistently outperforms existing approaches, achieving more robust and reliable behavioral control.
- Abstract(参考訳): 大きな言語モデル(LLM)の振る舞いを制御することは、安全性の確保と信頼性の高いデプロイメントに不可欠である。
しかし、既存のステアリング法は主に経験的洞察によって駆動され、理論的な性能保証が欠如している。
本研究では,一般的なステアリング手法が比例(P)コントローラに対応し,ステアリングベクトルがフィードバック信号として機能することを示し,アクティベーションステアリングのための制御理論基盤を開発する。
この発見に基づいて,LLMの活性化ステアリングにフルPIDコントローラを利用する,PIDステアリング(Proportional-Integral-Derivative Steering)を提案する。
比例(P)項はアクティベーションを目標セマンティックな方向と一致させ、積分(I)項はエラーを蓄積して層間の永続的な修正を行い、微分(D)項は急激なアクティベーション変化に対抗してオーバーシュートを緩和する。
この閉ループ設計は解釈可能なエラーダイナミクスをもたらし、アクティベーションステアリングを制御理論の古典的安定性保証に接続する。
さらに、PIDステアリングは軽量でモジュール化されており、最先端のステアリング手法と容易に統合できる。
複数のLLMファミリーとベンチマークにわたる大規模な実験は、PIDステアリングが既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現することを示した。
関連論文リスト
- EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - STU-PID: Steering Token Usage via PID Controller for Efficient Large Language Model Reasoning [0.0]
拡張チェーン・オブ・シンクレット(CoT)推論を用いた大規模言語モデルは、しばしば過度に考え抜かれた現象に悩まされる。
推論中の操舵強度を動的に活性化するPIDコントローラを用いた新しいトレーニングフリー手法STUPIDを提案する。
提案手法では,冗長推論パターンを検出するチャンクレベル分類器と,予測冗長性確率に基づいて操舵強度を適応的に調整するPID制御機構を組み合わせる。
論文 参考訳(メタデータ) (2025-06-23T16:47:19Z) - Instruction Following by Boosting Attention of Large Language Models [11.739148611340964]
潜水ステアリングは 内部の活性化を 誘導する 軽量な技術だ
InstABoostは、世代間のモデルの注意を変えることで、インストラクションの強度を高める。
InstABoostは従来のプロンプトと潜伏したステアリングよりも優れたコントロール成功を示している。
論文 参考訳(メタデータ) (2025-06-16T17:42:35Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - Autonomous Vehicle Lateral Control Using Deep Reinforcement Learning with MPC-PID Demonstration [23.245716549852332]
コントローラーは自動運転パイプラインにおいて最も重要なモジュールの1つである。
本研究では, 測定誤差や簡易化による車両モデルの不完全性にもかかわらず, 強化学習に基づく横方向制御手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T15:05:06Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [3.2361985831403404]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。