論文の概要: Angular Steering: Behavior Control via Rotation in Activation Space
- arxiv url: http://arxiv.org/abs/2510.26243v1
- Date: Thu, 30 Oct 2025 08:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.710281
- Title: Angular Steering: Behavior Control via Rotation in Activation Space
- Title(参考訳): Angular Steering: アクティベーション空間における回転による動作制御
- Authors: Hieu M. Vu, Tan M. Nguyen,
- Abstract要約: Angular Steeringは、振る舞い変調の新しいフレキシブルな方法である。
固定された2次元部分空間内で回転活性化によって作用する。
拒否やコンプライアンスといった行動に対して,継続的かつきめ細かいコントロールを提供する。
- 参考スコア(独自算出の注目度): 1.3400719989424488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling specific behaviors in large language models while preserving their general capabilities is a central challenge for safe and reliable artificial intelligence deployment. Current steering methods, such as vector addition and directional ablation, are constrained within a two-dimensional subspace defined by the activation and feature direction, making them sensitive to chosen parameters and potentially affecting unrelated features due to unintended interactions in activation space. We introduce Angular Steering, a novel and flexible method for behavior modulation that operates by rotating activations within a fixed two-dimensional subspace. By formulating steering as a geometric rotation toward or away from a target behavior direction, Angular Steering provides continuous, fine-grained control over behaviors such as refusal and compliance. We demonstrate this method using refusal steering emotion steering as use cases. Additionally, we propose Adaptive Angular Steering, a selective variant that rotates only activations aligned with the target feature, further enhancing stability and coherence. Angular Steering generalizes existing addition and orthogonalization techniques under a unified geometric rotation framework, simplifying parameter selection and maintaining model stability across a broader range of adjustments. Experiments across multiple model families and sizes show that Angular Steering achieves robust behavioral control while maintaining general language modeling performance, underscoring its flexibility, generalization, and robustness compared to prior approaches. Code and artifacts are available at https://github.com/lone17/angular-steering/.
- Abstract(参考訳): 一般的な能力を維持しながら、大きな言語モデルで特定の振る舞いを制御することは、安全で信頼性の高い人工知能デプロイメントにおける中心的な課題である。
ベクトル加算や指向性アブレーションのような現在のステアリング法は、アクティベーションと特徴方向によって定義された2次元のサブ空間内で制約され、選択されたパラメータに敏感になり、アクティベーション空間における意図しない相互作用による無関係な特徴に影響を与える可能性がある。
固定された2次元部分空間内での回転活性化によって動作を調節する,新しいフレキシブルな動作変調手法であるAngular Steeringを紹介する。
Angular Steeringは、ステアリングを幾何学的回転としてターゲットの動作方向から遠ざかることによって、拒絶やコンプライアンスといった動作に対する連続的かつきめ細かい制御を提供する。
本稿では,この手法をユースケースとして,拒絶操舵感情ステアリングを用いて実証する。
さらに、ターゲット機能に一致したアクティベーションのみを回転させる選択型であるAdaptive Angular Steeringを提案し、安定性とコヒーレンスをさらに向上させる。
Angular Steeringは、統一的な幾何回転フレームワークの下で既存の追加および直交化技術を一般化し、パラメータの選択を簡素化し、幅広い調整範囲にわたってモデルの安定性を維持する。
複数のモデルファミリとサイズにわたる実験によると、Angular Steeringは、一般的な言語モデリングのパフォーマンスを維持しながら、堅牢な動作制御を実現し、その柔軟性、一般化、ロバストさを以前のアプローチと比べて強調している。
コードとアーティファクトはhttps://github.com/lone17/angular-steering/で入手できる。
関連論文リスト
- PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration [17.225716209866086]
ウェブ上での大規模言語モデル(LLM)のための位置対応型アクティベーションステアリングフレームワークを提案する。
PIXELは2つのビューからプロパティ整列部分空間を学習し、制約された幾何学的目的を通して介入強度を選択する。
PIXELは、モデル一般機能を維持しながら、属性アライメントを一貫して改善する。
論文 参考訳(メタデータ) (2025-10-11T13:13:34Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - OmniControl: Control Any Joint at Any Time for Human Motion Generation [46.293854851116215]
テキスト条件付き人体動作生成モデルにフレキシブルな空間制御信号を統合するために,OmniControlという新しい手法を提案する。
本稿では,入力制御信号に厳密に適合した動作を実現するための解析的空間ガイダンスを提案する。
同時に、全ての関節を洗練してよりコヒーレントな動きを生み出すためにリアリズムガイダンスが導入された。
論文 参考訳(メタデータ) (2023-10-12T17:59:38Z) - DeepMLS: Geometry-Aware Control Point Deformation [76.51312491336343]
本稿では,空間に基づく変形技術であるDeepMLSを紹介する。
ニューラルネットワークの力を利用して、下層の形状を変形パラメータに注入する。
本手法は直感的に滑らかな変形をしやすくし, 製造物に適している。
論文 参考訳(メタデータ) (2022-01-05T23:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。