論文の概要: Weight Updates as Activation Shifts: A Principled Framework for Steering
- arxiv url: http://arxiv.org/abs/2603.00425v1
- Date: Sat, 28 Feb 2026 02:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.184668
- Title: Weight Updates as Activation Shifts: A Principled Framework for Steering
- Title(参考訳): Activation Shiftsとしての軽量アップデート - ステアリングの原則的フレームワーク
- Authors: Dyah Adila, John Cooper, Alexander Yun, Avi Trost, Frederic Sala,
- Abstract要約: アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
- 参考スコア(独自算出の注目度): 54.70188910511715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation steering promises to be an extremely parameter-efficient form of adaptation, but its effectiveness depends on critical design choices -- such as intervention location and parameterization -- that currently rely on empirical heuristics rather than a principled foundation. We establish a first-order equivalence between activation-space interventions and weight-space updates, deriving the conditions under which activation steering can replicate fine-tuning behavior. This equivalence yields a principled framework for steering design and identifies the post-block output as a theoretically-backed and highly expressive intervention site. We further explain why certain intervention locations outperform others and show that weight updates and activation updates play distinct, complementary functional roles. This analysis motivates a new approach -- joint adaptation -- that trains in both spaces simultaneously. Our post-block steering achieves accuracy within 0.2%-0.9%$ of full-parameter tuning, on average across tasks and models, while training only 0.04% of model parameters. It consistently outperforms prior activation steering methods such as ReFT and PEFT approaches including LoRA, while using significantly fewer parameters. Finally, we show that joint adaptation often surpasses the performance ceilings of weight and activation updates in isolation, introducing a new paradigm for efficient model adaptation.
- Abstract(参考訳): アクティベーションステアリングは極めてパラメータ効率のよい適応形態を約束するが、その有効性は、原則化された基礎ではなく経験的ヒューリスティックに依存している、介入位置やパラメータ化のような重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
さらに、ある介入場所が他よりも優れている理由を説明し、重み更新とアクティベーション更新が相補的な機能的役割を担っていることを示す。
この分析は、両方の空間で同時にトレーニングする新しいアプローチ(共同適応)を動機付けている。
我々のポストブロックステアリングは、タスクやモデルの平均的な全パラメータチューニングで0.2%-0.9%の精度を達成しますが、モデルパラメータの0.04%しかトレーニングしていません。
ReFT や PEFT など,LoRA などの事前のアクティベーションステアリング手法よりもはるかに少ないパラメータを使用すれば,常にパフォーマンスが向上する。
最後に,結合適応は重み付けやアクティベーション更新を単独で行うことで,効率の良いモデル適応のための新しいパラダイムを導入している。
関連論文リスト
- Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics [6.208369829942616]
我々は,新しい強化学習アルゴリズムであるUnified Latent Dynamics (ULD)を提案する。
ULDはモデルベースアプローチの表現力でモデルフリー手法の効率を統一する。
Gymロコモーション、DeepMind Control(プロセプティブおよびビジュアル)、Atariにまたがる80環境での評価を行った。
論文 参考訳(メタデータ) (2026-02-13T06:06:56Z) - Regime Change Hypothesis: Foundations for Decoupled Dynamics in Neural Network Training [1.0518862318418603]
ReLUベースのモデルでは、与えられた入力によって誘導される活性化パターンが、ネットワークが親和的に振る舞う一方向線形領域を決定する。
トレーニングが2段階の行動を示すかを検討する。アクティベーションパターンが大幅に変化した初期段階と、重み更新が主にモデルを洗練させる後期である。
論文 参考訳(メタデータ) (2026-02-09T07:14:28Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - From Coefficients to Directions: Rethinking Model Merging with Directional Alignment [66.99062575537555]
パラメータと特徴空間の両面に一貫した方向構造を整列する,方向アライメント付きemphMerging(method)という統一幾何学的枠組みを導入する。
分析の結果、指向性アライメントは構造的コヒーレンスを改善し、ベンチマーク、モデルスケール、タスク構成にまたがる広範な実験により、我々のアプローチの有効性がさらに検証された。
論文 参考訳(メタデータ) (2025-11-29T08:40:58Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Dynamic Adaptation of LoRA Fine-Tuning for Efficient and Task-Specific Optimization of Large Language Models [0.7421845364041001]
本稿では,大規模言語モデル-動的LoRAのためのファインチューニング手法を提案する。
効率と性能を改善するために動的適応機構を追加します。
動的LoRAの効率は、ベンチマークデータセットの実験で検証された。
論文 参考訳(メタデータ) (2025-01-24T18:54:14Z) - Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。
提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。
我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文 参考訳(メタデータ) (2024-10-03T02:12:03Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。