論文の概要: Angular Steering: Behavior Control via Rotation in Activation Space
- arxiv url: http://arxiv.org/abs/2510.26243v1
- Date: Thu, 30 Oct 2025 08:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.710281
- Title: Angular Steering: Behavior Control via Rotation in Activation Space
- Title(参考訳): Angular Steering: アクティベーション空間における回転による動作制御
- Authors: Hieu M. Vu, Tan M. Nguyen,
- Abstract要約: Angular Steeringは、振る舞い変調の新しいフレキシブルな方法である。
固定された2次元部分空間内で回転活性化によって作用する。
拒否やコンプライアンスといった行動に対して,継続的かつきめ細かいコントロールを提供する。
- 参考スコア(独自算出の注目度): 1.3400719989424488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling specific behaviors in large language models while preserving their general capabilities is a central challenge for safe and reliable artificial intelligence deployment. Current steering methods, such as vector addition and directional ablation, are constrained within a two-dimensional subspace defined by the activation and feature direction, making them sensitive to chosen parameters and potentially affecting unrelated features due to unintended interactions in activation space. We introduce Angular Steering, a novel and flexible method for behavior modulation that operates by rotating activations within a fixed two-dimensional subspace. By formulating steering as a geometric rotation toward or away from a target behavior direction, Angular Steering provides continuous, fine-grained control over behaviors such as refusal and compliance. We demonstrate this method using refusal steering emotion steering as use cases. Additionally, we propose Adaptive Angular Steering, a selective variant that rotates only activations aligned with the target feature, further enhancing stability and coherence. Angular Steering generalizes existing addition and orthogonalization techniques under a unified geometric rotation framework, simplifying parameter selection and maintaining model stability across a broader range of adjustments. Experiments across multiple model families and sizes show that Angular Steering achieves robust behavioral control while maintaining general language modeling performance, underscoring its flexibility, generalization, and robustness compared to prior approaches. Code and artifacts are available at https://github.com/lone17/angular-steering/.
- Abstract(参考訳): 一般的な能力を維持しながら、大きな言語モデルで特定の振る舞いを制御することは、安全で信頼性の高い人工知能デプロイメントにおける中心的な課題である。
ベクトル加算や指向性アブレーションのような現在のステアリング法は、アクティベーションと特徴方向によって定義された2次元のサブ空間内で制約され、選択されたパラメータに敏感になり、アクティベーション空間における意図しない相互作用による無関係な特徴に影響を与える可能性がある。
固定された2次元部分空間内での回転活性化によって動作を調節する,新しいフレキシブルな動作変調手法であるAngular Steeringを紹介する。
Angular Steeringは、ステアリングを幾何学的回転としてターゲットの動作方向から遠ざかることによって、拒絶やコンプライアンスといった動作に対する連続的かつきめ細かい制御を提供する。
本稿では,この手法をユースケースとして,拒絶操舵感情ステアリングを用いて実証する。
さらに、ターゲット機能に一致したアクティベーションのみを回転させる選択型であるAdaptive Angular Steeringを提案し、安定性とコヒーレンスをさらに向上させる。
Angular Steeringは、統一的な幾何回転フレームワークの下で既存の追加および直交化技術を一般化し、パラメータの選択を簡素化し、幅広い調整範囲にわたってモデルの安定性を維持する。
複数のモデルファミリとサイズにわたる実験によると、Angular Steeringは、一般的な言語モデリングのパフォーマンスを維持しながら、堅牢な動作制御を実現し、その柔軟性、一般化、ロバストさを以前のアプローチと比べて強調している。
コードとアーティファクトはhttps://github.com/lone17/angular-steering/で入手できる。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations [0.0]
ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。
トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。
操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
論文 参考訳(メタデータ) (2026-02-19T22:37:05Z) - ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - Spherical Steering: Geometry-Aware Activation Rotation for Language Models [15.078810641141295]
推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
本手法は,信号の完全性を保ちながら,測地線に沿って目標方向に向かって活性化を回転させ,目標概念に向けての活性化を誘導する。
論文 参考訳(メタデータ) (2026-02-09T00:15:47Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。
DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文 参考訳(メタデータ) (2025-12-03T10:50:15Z) - PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration [17.225716209866086]
ウェブ上での大規模言語モデル(LLM)のための位置対応型アクティベーションステアリングフレームワークを提案する。
PIXELは2つのビューからプロパティ整列部分空間を学習し、制約された幾何学的目的を通して介入強度を選択する。
PIXELは、モデル一般機能を維持しながら、属性アライメントを一貫して改善する。
論文 参考訳(メタデータ) (2025-10-11T13:13:34Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - OmniControl: Control Any Joint at Any Time for Human Motion Generation [46.293854851116215]
テキスト条件付き人体動作生成モデルにフレキシブルな空間制御信号を統合するために,OmniControlという新しい手法を提案する。
本稿では,入力制御信号に厳密に適合した動作を実現するための解析的空間ガイダンスを提案する。
同時に、全ての関節を洗練してよりコヒーレントな動きを生み出すためにリアリズムガイダンスが導入された。
論文 参考訳(メタデータ) (2023-10-12T17:59:38Z) - DeepMLS: Geometry-Aware Control Point Deformation [76.51312491336343]
本稿では,空間に基づく変形技術であるDeepMLSを紹介する。
ニューラルネットワークの力を利用して、下層の形状を変形パラメータに注入する。
本手法は直感的に滑らかな変形をしやすくし, 製造物に適している。
論文 参考訳(メタデータ) (2022-01-05T23:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。