論文の概要: From Weights to Activations: Is Steering the Next Frontier of Adaptation?
- arxiv url: http://arxiv.org/abs/2604.14090v1
- Date: Wed, 15 Apr 2026 17:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.653842
- Title: From Weights to Activations: Is Steering the Next Frontier of Adaptation?
- Title(参考訳): ウェイトからアクティベーションへ: 適応の次のフロンティアはステアリングか?
- Authors: Simon Ostermann, Daniil Gurgurov, Tanja Baeumel, Michael A. Hedderich, Sebastian Lapuschkin, Wojciech Samek, Vera Schmitt,
- Abstract要約: 言語モデルの訓練後適応は、パラメータ更新や入力ベースの手法によって一般的に達成される。
我々は、ステアリングをモデル適応の一形態と見なすべきであると主張する。
- 参考スコア(独自算出の注目度): 24.89959346599616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training adaptation of language models is commonly achieved through parameter updates or input-based methods such as fine-tuning, parameter-efficient adaptation, and prompting. In parallel, a growing body of work modifies internal activations at inference time to influence model behavior, an approach known as steering. Despite increasing use, steering is rarely analyzed within the same conceptual framework as established adaptation methods. In this work, we argue that steering should be regarded as a form of model adaptation. We introduce a set of functional criteria for adaptation methods and use them to compare steering approaches with classical alternatives. This analysis positions steering as a distinct adaptation paradigm based on targeted interventions in activation space, enabling local and reversible behavioral change without parameter updates. The resulting framing clarifies how steering relates to existing methods, motivating a unified taxonomy for model adaptation.
- Abstract(参考訳): 言語モデルの訓練後適応は、パラメータ更新や、微調整、パラメータ効率適応、プロンプトといった入力ベースの手法によって一般的に達成される。
並行して、成長する仕事の体は、モデル行動に影響を与えるために推論時に内部の活性化を変化させる。
使用量の増加にもかかわらず、ステアリングは確立された適応法と同じ概念的枠組み内ではほとんど分析されない。
本論では, ステアリングをモデル適応の一形態とみなすべきであると論じる。
適応手法の一連の機能基準を導入し, ステアリング手法と古典的代替品の比較に利用した。
この分析は、ステアリングをアクティベーション空間におけるターゲットの介入に基づく異なる適応パラダイムとして位置づけ、パラメータ更新なしで局所的かつ可逆的な行動変化を可能にする。
結果として得られたフレーミングは、ステアリングが既存の方法とどのように関係しているかを明確にし、モデル適応のための統一された分類を動機付けている。
関連論文リスト
- Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Vision-Conditioned Variational Bayesian Last Layer Dynamics Models [2.936118677102837]
ロボットシステムのアジャイル制御は、しばしば環境がシステムの振る舞いにどのように影響するかを予測する必要がある。
従来のモデリング手法は、しばしばシステムの振る舞いの急激な変化を捉えるのに苦労する。
本研究では,視覚環境の変化を予測できる視覚条件付き変分ベイズ最終層力学モデルを提案する。
論文 参考訳(メタデータ) (2026-01-14T05:25:18Z) - Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。
DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文 参考訳(メタデータ) (2025-12-03T10:50:15Z) - Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文 参考訳(メタデータ) (2024-12-06T18:59:51Z) - Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot
Dynamics and Environments [3.5309638744466167]
この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。
提案手法は, インタラクションモデルを更新し, 推定された状態-作用軌道のアクションをサンプル化し, 最適なアクションを適用し, 報酬を最大化する。
論文 参考訳(メタデータ) (2021-01-19T12:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。