論文の概要: The Cylindrical Representation Hypothesis for Language Model Steering
- arxiv url: http://arxiv.org/abs/2605.01844v1
- Date: Sun, 03 May 2026 12:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.959854
- Title: The Cylindrical Representation Hypothesis for Language Model Steering
- Title(参考訳): 言語モデルステアリングのための円筒表現仮説
- Authors: Lang Gao, Jinghui Zhang, Wei Liu, Fengxian Ji, Chenxi Wang, Zirui Song, Akash Ghosh, Youssef Mohamed, Preslav Nakov, Xiuying Chen,
- Abstract要約: 中心軸は、概念の欠如と存在との主な違いを捉え、概念生成を駆動することを示す。
我々はこれを円筒表現仮説(CRH)として定式化する。
本実験は円筒構造の存在を検証し,CRHが実環境でのモデルステアリング動作の解釈に有効かつ実用的な方法であることを示した。
- 参考スコア(独自算出の注目度): 57.97381760521523
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Steering is a widely used technique for controlling large language models, yet its effects are often unstable and hard to predict. Existing theoretical accounts are largely based on the Linear Representation Hypothesis (LRH). While LRH assumes that concepts can be orthogonalized for lossless control, this idealized mapping fails in real representations and cannot account for the observed unpredictability of steering. By relaxing LRH's orthogonality assumption while preserving linear representations, we show that overlapping concept contributions naturally yield a sample-specific axis-orthogonal structure. We formalize this as the Cylindrical Representation Hypothesis (CRH). In CRH, a central axis captures the main difference between concept absence and presence and drives concept generation. A surrounding normal plane controls steering sensitivity by determining how easily the axis can activate the target concept. Within this plane, only specific sensitive sectors strongly facilitate concept activation, while other sectors can suppress or delay it. While the surrounding normal plane can be reliably identified from difference vectors, the sensitive sector cannot, introducing intrinsic uncertainty at the sector level. This uncertainty provides a principled explanation for why steering outcomes often fluctuate even when using well-aligned directions. Our experiments verify the existence of the cylindrical structure and demonstrate that CRH provides a valid and practical way to interpret model steering behavior in real settings: https://github.com/mbzuai-nlp/CRH.
- Abstract(参考訳): ステアリングは大きな言語モデルを制御するために広く使われているテクニックであるが、その効果は不安定で予測が難しいことが多い。
既存の理論的な説明は主にリニア表現仮説(LRH)に基づいている。
LRHは、概念は損失のない制御のために直交化できると仮定するが、この理想化された写像は実表現では失敗し、ステアリングの観測された予測不可能を考慮できない。
線形表現を保ちながらLRHの直交性仮定を緩和することにより、重なり合う概念が自然にサンプル固有の軸-直交構造をもたらすことを示す。
我々はこれをCylindrical Representation hypothesis (CRH)として定式化する。
CRHでは、中心軸は概念の不在と存在の主な違いを捉え、概念生成を駆動する。
周囲の通常の平面は、軸が目標概念をどの程度容易に活性化できるかを決定することによって操舵感度を制御する。
この飛行機内では、特定の敏感なセクターだけがコンセプトアクティベーションを強く促進し、他のセクターはそれを抑制または遅らせることができる。
周囲の通常の平面は、差分ベクトルから確実に特定できるが、感度セクターは、セクターレベルで本質的な不確実性を導入することはできない。
この不確実性は、うまく整列した方向を用いた場合であっても、なぜステアリング結果が頻繁に変動するかという原則的な説明を提供する。
本実験は, 円筒構造の存在を検証し, CRHが実環境でモデルステアリングの挙動を解釈する有効な方法であることを示した。
関連論文リスト
- Sparse Autoencoders as a Steering Basis for Phase Synchronization in Graph-Based CFD Surrogates [6.396157607535812]
グラフベースのサロゲートモデルは、高忠実度CFDソルバに代わる高速な代替手段を提供するが、その不透明な潜在空間と制限された制御性は、安全クリティカルな設定での使用を制限する。
凍結サロゲートの潜伏空間を操作することにより, 位相ドリフトをポストホックで補正できるかどうかを問う。
本稿では、適切な表現と適切な介入機構を組み合わせた事前学習グラフベースのCFDモデルのための位相ステアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-28T07:03:44Z) - Curveball Steering: The Right Direction To Steer Isn't Always Linear [7.264147948470562]
アクティベーションステアリング(Activation steering)は、内部表現に介入して大きな言語モデル(LLM)の振る舞いを制御するために広く用いられるアプローチである。
本稿では,PCAカーネルをベースとした非線形ステアリング手法であるCurveball steeringを提案する。
論文 参考訳(メタデータ) (2026-03-10T07:45:35Z) - Concept Heterogeneity-aware Representation Steering [6.247724933679344]
Representation steeringは、推論時に内部アクティベーションに介入することで、大きな言語モデル(LLM)の振る舞いを制御するメカニズムを提供する。
既存のほとんどの手法は単一のグローバルな操舵方向に依存しており、典型的には対照的なデータセットよりも差分で得られる。
本研究では、最適輸送(OT)のレンズによる表現ステアリングを視認し、標準差分ステアリングが2つの非モダルガウス分布間のOTマップと暗黙的に対応していることに注意する。
論文 参考訳(メタデータ) (2026-02-13T11:07:23Z) - On the Identifiability of Steering Vectors in Large Language Models [0.0]
アクティベーションステアリング法は大規模言語モデルの振る舞いを制御するために広く用いられている。
この解釈は、操舵方向が入力出力動作から識別可能で一意に回復可能であることを暗黙的に仮定する。
操舵ベクトルは、行動的に区別不能な介入の大きな同値類のため、基本的には識別不可能であることを示す。
論文 参考訳(メタデータ) (2026-02-06T15:53:50Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。