論文の概要: Curveball Steering: The Right Direction To Steer Isn't Always Linear
- arxiv url: http://arxiv.org/abs/2603.09313v1
- Date: Tue, 10 Mar 2026 07:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.132099
- Title: Curveball Steering: The Right Direction To Steer Isn't Always Linear
- Title(参考訳): Curveballのステアリング:ステアリングの正しい方向はいつも直線的ではない
- Authors: Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali Abdullah,
- Abstract要約: アクティベーションステアリング(Activation steering)は、内部表現に介入して大きな言語モデル(LLM)の振る舞いを制御するために広く用いられるアプローチである。
本稿では,PCAカーネルをベースとした非線形ステアリング手法であるCurveball steeringを提案する。
- 参考スコア(独自算出の注目度): 1.2631431043274521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering is a widely used approach for controlling large language model (LLM) behavior by intervening on internal representations. Existing methods largely rely on the Linear Representation Hypothesis, assuming behavioral attributes can be manipulated using global linear directions. In practice, however, such linear interventions often behave inconsistently. We question this assumption by analyzing the intrinsic geometry of LLM activation spaces. Measuring geometric distortion via the ratio of geodesic to Euclidean distances, we observe substantial and concept-dependent distortions, indicating that activation spaces are not well-approximated by a globally linear geometry. Motivated by this, we propose "Curveball steering", a nonlinear steering method based on polynomial kernel PCA that performs interventions in a feature space, better respecting the learned activation geometry. Curveball steering consistently outperforms linear PCA-based steering, particularly in regimes exhibiting strong geometric distortion, suggesting that geometry-aware, nonlinear steering provides a principled alternative to global, linear interventions.
- Abstract(参考訳): アクティベーションステアリング(Activation steering)は、内部表現に介入して大きな言語モデル(LLM)の振る舞いを制御するために広く用いられるアプローチである。
既存の手法は線形表現仮説に大きく依存しており、大域的線形方向を用いて行動特性を操作できると仮定している。
しかし実際には、そのような線形的介入はしばしば矛盾して振る舞う。
この仮定は LLM 活性化空間の内在幾何学を解析することによって疑問を呈する。
測地線とユークリッド距離の比で幾何学的歪みを測定することで、実測および概念に依存した歪みを観測し、活性化空間が大域線型幾何によってうまく近似されていないことを示す。
そこで本研究では,多項式カーネルPCAをベースとした非線形ステアリング手法であるCurveball steeringを提案する。
曲線ボールステアリングは、線形PCAベースのステアリングよりも一貫して優れており、特に強い幾何学的歪みを示すレジームにおいて、幾何学的、非線形ステアリングは、大域的、線形的介入の原則的な代替となることを示唆している。
関連論文リスト
- Spherical Steering: Geometry-Aware Activation Rotation for Language Models [15.078810641141295]
推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
本手法は,信号の完全性を保ちながら,測地線に沿って目標方向に向かって活性化を回転させ,目標概念に向けての活性化を誘導する。
論文 参考訳(メタデータ) (2026-02-09T00:15:47Z) - Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF [0.0]
大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
論文 参考訳(メタデータ) (2026-01-18T13:57:44Z) - Quantized nonlinear kink movement through topological boundary state instabilities [0.0]
本研究では, ポンピングパラメータの周期変調の下で, キンクの量子化輸送を示す非線形二量体鎖モデルについて検討する。
これらの境界モードの不安定性は、観測されたクリンク運動の背後にある駆動機構であることを示す。
その結果,線形トポロジと非線形力学の概念を統一し,非線形媒体における量子化輸送の枠組みを確立した。
論文 参考訳(メタデータ) (2025-08-16T16:46:19Z) - Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。
遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文 参考訳(メタデータ) (2025-07-15T23:08:14Z) - Convergence of TD(0) under Polynomial Mixing with Nonlinear Function Approximation [49.1574468325115]
時間差分学習(TD(0))は強化学習の基本である。
マルコフデータを混合したバニラTD(0)の最初の高確率有限サンプル解析を行う。
論文 参考訳(メタデータ) (2025-02-08T22:01:02Z) - RLE: A Unified Perspective of Data Augmentation for Cross-Spectral Re-identification [59.5042031913258]
非線型モダリティの相違は主に、異なる材料の表面に作用する様々な線形変換に由来する。
本稿では,MRLE(Modrate Random Linear Enhancement)とRRLE(Radical Random Linear Enhancement)を含むRLE(Random Linear Enhancement)戦略を提案する。
実験結果は、RLEの優位性と有効性を示すだけでなく、クロススペクトル再同定のための汎用データ拡張としての可能性も確認した。
論文 参考訳(メタデータ) (2024-11-02T12:13:37Z) - KEEC: Koopman Embedded Equivariant Control [29.738391644702947]
未知の非線形力学を持つシステムを制御する効率的な方法は、適切な埋め込みや表現を見つけることである。
Koopman Embedded Equivariant Control (KEEC) は、クープマン作用素が潜在力学として近似されるような状態とベクトル場の埋め込みを学習する。
本アルゴリズムは,様々な制御領域で実施した実験において,優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-04T00:11:27Z) - Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding [20.43835169613882]
本稿では,非線形系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。
これはシステムの非線形力学によって誘導される無限次元の特徴表現を明らかにし、状態-作用値関数の線形表現を可能にする。
実用的な実装では、この表現は有限次元のトランケーションを用いて近似される。
論文 参考訳(メタデータ) (2023-04-08T04:23:46Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - A dynamical systems based framework for dimension reduction [0.0]
本稿では,非線形力学系に基づく低次元データ表現の学習フレームワークを提案する。
DDRモデルでは、各点は低次元部分空間への非線形フローによって進化する。
勾配に基づく最適化手法を用いてDDR法をどのように訓練するかを示す。
論文 参考訳(メタデータ) (2022-04-18T04:02:11Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。