論文の概要: On the Identifiability of Steering Vectors in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.06801v1
- Date: Fri, 06 Feb 2026 15:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.462017
- Title: On the Identifiability of Steering Vectors in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるステアリングベクトルの同定可能性について
- Authors: Sohan Venkatesh, Ashish Mahendran Kurapath,
- Abstract要約: アクティベーションステアリング法は大規模言語モデルの振る舞いを制御するために広く用いられている。
この解釈は、操舵方向が入力出力動作から識別可能で一意に回復可能であることを暗黙的に仮定する。
操舵ベクトルは、行動的に区別不能な介入の大きな同値類のため、基本的には識別不可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering methods, such as persona vectors, are widely used to control large language model behavior and increasingly interpreted as revealing meaningful internal representations. This interpretation implicitly assumes steering directions are identifiable and uniquely recoverable from input-output behavior. We formalize steering as an intervention on internal representations and prove that, under realistic modeling and data conditions, steering vectors are fundamentally non-identifiable due to large equivalence classes of behaviorally indistinguishable interventions. Empirically, we validate this across multiple models and semantic traits, showing orthogonal perturbations achieve near-equivalent efficacy with negligible effect sizes. However, identifiability is recoverable under structural assumptions including statistical independence, sparsity constraints, multi-environment validation or cross-layer consistency. These findings reveal fundamental interpretability limits and clarify structural assumptions required for reliable safety-critical control.
- Abstract(参考訳): ペルソナベクトルのような活性化ステアリング法は、大きな言語モデルの振る舞いを制御するために広く使われ、意味のある内部表現を明らかにするものとして解釈される。
この解釈は、操舵方向が入力出力動作から識別可能で一意に回復可能であることを暗黙的に仮定する。
我々は、内部表現の介入としてステアリングを定式化し、現実的なモデリングやデータ条件の下では、ステアリングベクトルが基本的に識別不可能であることを証明する。
経験的に、複数のモデルと意味的特性にまたがってこれを検証し、直交摂動が無視可能な効果の大きさでほぼ等価な効果が得られることを示す。
しかし、統計的独立性、疎性制約、マルチ環境検証、層間整合性といった構造的前提の下で、識別性は回復可能である。
これらの知見は,信頼性の高い安全クリティカルコントロールに必要な基本的な解釈可能性の限界と構造的仮定を明らかにした。
関連論文リスト
- Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Beyond Predictive Uncertainty: Reliable Representation Learning with Structural Constraints [0.3948325938742681]
信頼性は、学習した表現そのものの第一級の性質と見なされるべきである。
本稿では,表現レベルの不確実性を明示的にモデル化する信頼性のある表現学習のための原則的フレームワークを提案する。
提案手法では,不確実性を考慮した正規化が直接表現空間に導入され,予測的だけでなく,安定的で,校正的であり,ノイズや構造的摂動に対して頑健な表現が奨励される。
論文 参考訳(メタデータ) (2026-01-22T18:19:52Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - COSMIC: Generalized Refusal Direction Identification in LLM Activations [43.30637889861949]
本稿では,方向選択のための自動フレームワークであるbfCOSMIC(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
モデル出力から完全に独立しているコサイン類似性を使用して、実行可能なステアリング方向とターゲット層を特定する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽の拒絶を最小限に抑えつつ、より安全な行動に向けてそのようなモデルを操ることが可能である。
論文 参考訳(メタデータ) (2025-05-30T04:54:18Z) - Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering [14.298418197820912]
大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば内容の妥当性を論理的妥当性と混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、あるいはその逆であると見なされる。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
論文 参考訳(メタデータ) (2025-05-18T01:34:34Z) - Towards Unifying Interpretability and Control: Evaluation via Intervention [25.4582941170387]
我々は、介入が解釈可能性の基本的な目標であり、介入によるモデル行動の制御方法の評価に成功基準を導入することを論じる。
我々は4つの一般的な解釈可能性手法、スパースオートエンコーダ、ロジットレンズ、チューニングレンズ、および探索を抽象エンコーダデコーダフレームワークに拡張する。
モデルの動作を制御するための説明の正確性とその有用性を測定するために,介入成功率とコヒーレンス・インターベンショントレードオフという2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-11-07T04:52:18Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。