論文の概要: ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment
- arxiv url: http://arxiv.org/abs/2602.17560v1
- Date: Thu, 19 Feb 2026 17:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.2346
- Title: ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment
- Title(参考訳): ODESteer: LLMアライメントのための統一されたODEベースのステアリングフレームワーク
- Authors: Hongjue Zhao, Haosen Sun, Jiangtao Kong, Xiaochang Li, Qineng Wang, Liwei Jiang, Qi Zhu, Tarek Abdelzaher, Yejin Choi, Manling Li, Huajie Shao,
- Abstract要約: 本稿では,活性化ステアリングのための共通常微分方程式(ODE)に基づくテキスト理論フレームワークを提案する。
この枠組みに基づいて、操舵方向を特定することは、制御理論からテキストバリア関数を設計することと等価となる。
バリア関数で導かれるODEベースのステアリングを導入し,LLMアライメントにおけるテキストの進化を示す。
- 参考スコア(独自算出の注目度): 49.68063561145927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Activation steering, or representation engineering, offers a lightweight approach to align large language models (LLMs) by manipulating their internal activations at inference time. However, current methods suffer from two key limitations: \textit{(i)} the lack of a unified theoretical framework for guiding the design of steering directions, and \textit{(ii)} an over-reliance on \textit{one-step steering} that fail to capture complex patterns of activation distributions. In this work, we propose a unified ordinary differential equations (ODEs)-based \textit{theoretical} framework for activation steering in LLM alignment. We show that conventional activation addition can be interpreted as a first-order approximation to the solution of an ODE. Based on this ODE perspective, identifying a steering direction becomes equivalent to designing a \textit{barrier function} from control theory. Derived from this framework, we introduce ODESteer, a kind of ODE-based steering guided by barrier functions, which shows \textit{empirical} advancement in LLM alignment. ODESteer identifies steering directions by defining the barrier function as the log-density ratio between positive and negative activations, and employs it to construct an ODE for \textit{multi-step and adaptive} steering. Compared to state-of-the-art activation steering methods, ODESteer achieves consistent empirical improvements on diverse LLM alignment benchmarks, a notable $5.7\%$ improvement over TruthfulQA, $2.5\%$ over UltraFeedback, and $2.4\%$ over RealToxicityPrompts. Our work establishes a principled new view of activation steering in LLM alignment by unifying its theoretical foundations via ODEs, and validating it empirically through the proposed ODESteer method.
- Abstract(参考訳): アクティベーションステアリング(英: Activation steering)または表現工学(英: representation engineering)は、大きな言語モデル(LLM)を推論時に内部のアクティベーションを操作することで整列させる軽量なアプローチを提供する。
しかし、現在のメソッドは2つの重要な制限に悩まされている。
(i) 操舵方向の設計を導く統一的な理論的枠組みの欠如、および \textit{
(ii) アクティベーション分布の複雑なパターンを捉えるのに失敗する \textit{one-step steering} への過剰依存。
本研究では,LLMアライメントにおける活性化ステアリングのための共通常微分方程式(ODE)に基づくフレームワークを提案する。
従来のアクティベーション加算はODEの解に対する一階近似として解釈できることを示す。
このODEパースペクティブに基づいて、操舵方向を特定することは、制御理論から \textit{barrier function} を設計することと同値となる。
このフレームワークから派生したODESteerは、バリア関数によって導かれるODEベースのステアリングの一種であり、LLMアライメントにおける‘textit{empirical}’の進歩を示す。
ODESteerは、バリア関数を正と負のアクティベーションの対数密度比として定義することでステアリングの方向を識別し、それを利用して \textit{multi-step and adapt} ステアリングのためのODEを構築する。
最先端のアクティベーションステアリング手法と比較して、ODESteerは様々なLCMアライメントベンチマークにおける一貫した実証的な改善、TrathfulQAよりも5.7 %、UltraFeedbackより2.5 %、RealToxicityPromptsより2.4 %、などを実現している。
本研究は,LLMアライメントにおけるアクティベーションステアリングの原則的新たな考え方を確立し,その理論的基礎をODEで統一し,提案したODESteer法により実証的に検証する。
関連論文リスト
- Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。
広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。
ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-02T06:56:22Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles [0.0]
自律車線維持(LK)のためのマルチモーダル強化学習(RL)のための新しいフレームワークを提案する。
提案手法により,エージェントは周囲を認識し,理解しやすい運転ルールを学習することができる。
セマンティックアライメント、LK精度、障害物回避、速度制御を含むハイブリッド報酬関数は、学習をより効率的で一般化しやすいものにするのに役立つ。
論文 参考訳(メタデータ) (2025-10-25T17:27:08Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - Effectively Steer LLM To Follow Preference via Building Confident Directions [39.40603123075168]
本稿では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,LDMの活性化を制御できる確実な方向ステアリング法(CONFST)を提案する。
このアプローチは、一般的な双方向モデルステアリング方法に対して、3つの大きな利点を提供します。
論文 参考訳(メタデータ) (2025-03-04T20:32:27Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。