論文の概要: Spherical Steering: Geometry-Aware Activation Rotation for Language Models
- arxiv url: http://arxiv.org/abs/2602.08169v1
- Date: Mon, 09 Feb 2026 00:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.009834
- Title: Spherical Steering: Geometry-Aware Activation Rotation for Language Models
- Title(参考訳): 球面ステアリング:言語モデルのための幾何学的アクティベーションローテーション
- Authors: Zejia You, Chunyuan Deng, Hanjie Chen,
- Abstract要約: 推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
本手法は,信号の完全性を保ちながら,測地線に沿って目標方向に向かって活性化を回転させ,目標概念に向けての活性化を誘導する。
- 参考スコア(独自算出の注目度): 15.078810641141295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.
- Abstract(参考訳): 推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
しかし、標準的なアプローチは一般的に、隠れ表現の大きさを必然的に変更する幾何学的操作であるアクティベーション加算に依存する。
これにより、表現の崩壊とオープンな生成能力の低下が懸念される。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
固定ベクトルでアクティベーションをシフトするのではなく, ターゲット方向の測地線に沿って回転させ, 信号の完全性を維持しつつ, 目標概念へのアクティベーションを誘導する。
さらに適応性を高めるため、入力不確実性に基づいて操舵強度を動的に調節する信頼ゲートを組み込んだ。
Spherical Steeringは追加ベースライン(特にTruthfulQA、COPA、Storyclozeでは+10%)を大幅に上回っており、同時にモデルの一般的なオープンエンド世代品質を維持している。
この研究は幾何整合性の価値を強調し、ノルム保存回転は正確な推論時間制御のための堅牢で効果的な原始的であることを示唆している。
関連論文リスト
- Regime Change Hypothesis: Foundations for Decoupled Dynamics in Neural Network Training [1.0518862318418603]
ReLUベースのモデルでは、与えられた入力によって誘導される活性化パターンが、ネットワークが親和的に振る舞う一方向線形領域を決定する。
トレーニングが2段階の行動を示すかを検討する。アクティベーションパターンが大幅に変化した初期段階と、重み更新が主にモデルを洗練させる後期である。
論文 参考訳(メタデータ) (2026-02-09T07:14:28Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Rotation-Robust Regression with Convolutional Model Trees [11.143798306106362]
畳み込みモデル木(CMT)を用いた画像入力のための回転ロバスト学習に関する研究
分割方向に対する幾何学的帰納バイアスを3つ導入し、平面内回転下でのロバスト性への影響を定量化する。
我々は1-vs-restレグレッションとして実装されたMNIST桁認識における一貫した傾向を観察する。
論文 参考訳(メタデータ) (2026-01-08T12:53:33Z) - Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - Angular Steering: Behavior Control via Rotation in Activation Space [1.3400719989424488]
Angular Steeringは、振る舞い変調の新しいフレキシブルな方法である。
固定された2次元部分空間内で回転活性化によって作用する。
拒否やコンプライアンスといった行動に対して,継続的かつきめ細かいコントロールを提供する。
論文 参考訳(メタデータ) (2025-10-30T08:23:35Z) - Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-22T01:13:45Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。