論文の概要: DSPA: Dynamic SAE Steering for Data-Efficient Preference Alignment
- arxiv url: http://arxiv.org/abs/2603.21461v1
- Date: Mon, 23 Mar 2026 00:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.430009
- Title: DSPA: Dynamic SAE Steering for Data-Efficient Preference Alignment
- Title(参考訳): DSPA: データ効率の良い参照アライメントのための動的SAEステアリング
- Authors: James Wedgwood, Aashiq Muhamed, Mona T. Diab, Virginia Smith,
- Abstract要約: 本稿では,スパースオートエンコーダをプロンプト条件で操る推論時間法であるDSPA(Dynamic SAE Steering for Preference Alignment)を提案する。
好みのトリプルからDSPAは条件差マップを計算し、プロンプト特徴と生成制御特徴をリンクする。
DSPAは2段階のRAHF-SCITパイプラインと競合し、最大4.47タイムでアライメントステージのFLOPを減らすことができる。
- 参考スコア(独自算出の注目度): 34.510556354858416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference alignment is usually achieved by weight-updating training on preference data, which adds substantial alignment-stage compute and provides limited mechanistic visibility. We propose Dynamic SAE Steering for Preference Alignment (DSPA), an inference-time method that makes sparse autoencoder (SAE) steering prompt-conditional. From preference triples, DSPA computes a conditional-difference map linking prompt features to generation-control features; during decoding, it modifies only token-active latents, without base-model weight updates. Across Gemma-2-2B/9B and Qwen3-8B, DSPA improves MT-Bench and is competitive on AlpacaEval while preserving multiple-choice accuracy. Under restricted preference data, DSPA remains robust and can rival the two-stage RAHF-SCIT pipeline while requiring up to $4.47\times$ fewer alignment-stage FLOPs. Finally, we audit the SAE features DSPA modifies, finding that preference directions are dominated by discourse and stylistic signals, and provide theory clarifying the conditional-difference map estimate and when top-$k$ ablation is principled.
- Abstract(参考訳): 優先アライメントは通常、好みデータに対する重み付けトレーニングによって達成される。
本稿では,スパースオートエンコーダ(SAE)をプロンプト条件で操る推論時間法であるDSPA(Dynamic SAE Steering for Preference Alignment)を提案する。
プリミティブトリプルから、DSPAはプロンプト機能とジェネレーションコントロール機能とをリンクする条件付きディファレンスマップを演算する。
Gemma-2-2B/9BとQwen3-8B全体で、DSPAはMT-Benchを改善し、マルチチョイス精度を維持しながらAlpacaEvalと競合する。
制限された嗜好データの下では、DSPAは頑丈であり、2段階のRAHF-SCITパイプラインと競合し、最大4.47\times$より少ないアライメントステージFLOPを必要とする。
最後に,SAE の特徴 DSPA の修正,嗜好方向が談話やスタイリスティックな信号によって支配されていること,条件差マップ推定の明確化,およびトップ$k$ ablation が原則化された場合について述べる。
関連論文リスト
- TAB-PO: Preference Optimization with a Token-Level Adaptive Barrier for Token-Critical Structured Generation [0.0]
高価値セマンティックトークンを優先するトークン重み付き参照調整アドバンテージが提示される。
医療コミュニケーションアノテーションを用いたTAB-POの評価を行った。
論文 参考訳(メタデータ) (2026-02-03T23:48:13Z) - Tangent Space Fine-Tuning for Directional Preference Alignment in Large Language Models [0.2538209532048867]
私たちのゴールは、原則と制御可能なアライメントを通じて、大きな言語モデルで人間の好みの次元をバランスさせることです。
本稿では、局所線形な状態下でDPOを実行し、オブジェクトごとの更新方向を学習するTangent-Space Direct Preference Optimization (TS-DPO)を提案する。
論文 参考訳(メタデータ) (2026-02-01T09:56:28Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - Accurate Parameter-Efficient Test-Time Adaptation for Time Series Forecasting [2.688011048756518]
実世界の時系列は、しばしば非定常的な性質を示し、事前訓練された予測モデルの性能を低下させる。
PETSAは,入力と出力の小さなキャリブレーションモジュールのみを更新することで,予測器をテスト時に適応させる手法である。
PETSAは低ランクのアダプタと動的ゲーティングを使用して、リトレーニングなしで表現を調整する。
論文 参考訳(メタデータ) (2025-06-29T23:09:35Z) - Model Unlearning via Sparse Autoencoder Subspace Guided Projections [34.47648738350138]
大きな言語モデル(LLM)は大量の情報を格納するので、強力なプライバシと安全性の懸念が高まる。
グラデーションベースの微調整やモデル編集からスパースオートエンコーダのステアリングまで、既存の未学習戦略は解釈性に欠けるか、敵のプロンプトに対して堅牢な防御を提供しない。
我々は,SAE機能を活用した新たなフレームワークであるSAE-Guided Subspace Projection Unlearning (SSPU)を提案する。
論文 参考訳(メタデータ) (2025-05-30T10:07:52Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。