論文の概要: Predicting Where Steering Vectors Succeed
- arxiv url: http://arxiv.org/abs/2604.15557v1
- Date: Thu, 16 Apr 2026 22:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.666947
- Title: Predicting Where Steering Vectors Succeed
- Title(参考訳): ステアリングベクトルがどこから来たかを予測する
- Authors: Jayadev Billa,
- Abstract要約: リニアプロファイル(LAP)は,ロジットレンズを予測ベクトルの有効性として再利用した,層ごとの診断である。
主要な測度である$A_mathrmlin$は、モデルのアン埋め込み行列を中間隠れ状態に適用し、トレーニングを必要としない。
3つの登録フレームワークは、平均的なステアリングの違いがいつ機能するか、非線形メソッドが必要か、メソッドが動作しないのかを説明している。
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering vectors work for some concepts and layers but fail for others, and practitioners have no way to predict which setting applies before running an intervention. We introduce the Linear Accessibility Profile (LAP), a per-layer diagnostic that repurposes the logit lens as a predictor of steering vector effectiveness. The key measure, $A_{\mathrm{lin}}$, applies the model's unembedding matrix to intermediate hidden states, requiring no training. Across 24 controlled binary concept families on five models (Pythia-2.8B to Llama-8B), peak $A_{\mathrm{lin}}$ predicts steering effectiveness at $ρ= +0.86$ to $+0.91$ and layer selection at $ρ= +0.63$ to $+0.92$. A three-regime framework explains when difference-of-means steering works, when nonlinear methods are needed, and when no method can work. An entity-steering demo confirms the prediction end-to-end: steering at the LAP-recommended layer redirects completions on Gemma-2-2B and OLMo-2-1B-Instruct, while the middle layer (the standard heuristic) has no effect on either model.
- Abstract(参考訳): ステアリングベクトルはいくつかの概念やレイヤで機能するが、他では失敗する。
本稿では、ロジットレンズをステアリングベクトルの有効性の予測器として再利用した、層ごとの診断である線形アクセシビリティプロファイル(LAP)を紹介する。
主要な測度である$A_{\mathrm{lin}}$は、モデルのアンエンベディング行列を中間隠れ状態に適用し、トレーニングを必要としない。
5つのモデル(Pythia-2.8B から Llama-8B まで)の24回にわたって、ピーク$A_{\mathrm{lin}}$は、ステアリングの有効性を$ρ= +0.86$から$+0.91$に予測し、層選択は$ρ= +0.63$から$+0.92$に予測した。
3つの登録フレームワークは、平均的なステアリングの違いがいつ機能するか、非線形メソッドが必要か、メソッドが動作しないのかを説明している。
LAP推奨層でのステアリングはGemma-2-2BとOLMo-2-1B-Instructの完了をリダイレクトするが、中間層(標準ヒューリスティック)はどちらのモデルにも影響を与えない。
関連論文リスト
- Post-Training with Policy Gradients: Optimality and the Base Model Barrier [27.674563695368665]
結果とプロセス報酬を伴う線形自己回帰モデルの訓練後評価について検討する。
我々は、ポリシー勾配(PG)の変種が、本質的に最小限の報酬クエリ数を持つ1-varepsilon$を実現できることを証明した。
論文 参考訳(メタデータ) (2026-03-07T00:25:53Z) - Beyond Accuracy: A Unified Random Matrix Theory Diagnostic Framework for Crash Classification Models [6.908972852063454]
ランダム行列理論(RMT)とヘビープレート自己正規化(HTSR)に基づく診断枠組みを導入する。
アイオワDOTの2つのクラッシュ分類タスク(173,512,371,062)において,9つのモデルファミリーを評価した。
正規化されたモデルは常に$[2, 4]$(平均2.87 pm 0.34$)内で$を出力します。
我々は、$$ベースの早期停止基準とスペクトルモデル選択プロトコルを提案し、両者が相互検証されたFに対して検証する。
論文 参考訳(メタデータ) (2026-02-23T05:42:54Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Gradient dynamics for low-rank fine-tuning beyond kernels [9.275532709125242]
学生-教師設定における低ランク微調整について検討する。
基本モデルにおける行列であり,オンライン勾配勾配で訓練された学生モデルが,教師に収束する,という軽微な仮定の下で証明する。
論文 参考訳(メタデータ) (2024-11-23T00:00:28Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Foundation Model's Embedded Representations May Detect Distribution
Shift [0.0]
本稿では,Sentiment140データセットを用いたトランスファー学習のケーススタディを提案する。
自動ラベル付きトレーニングセットの$P$から、Sentiment140の手作業によるキュレートされたテストセットのさまざまな表現を符号化した事前トレーニングベースモデルが多数存在することを示す。
我々は、$P$のトレーニングと$M$のパフォーマンスの測定は一般化のバイアスのある尺度であると主張している。
論文 参考訳(メタデータ) (2023-10-20T22:20:50Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。