論文の概要: YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation
- arxiv url: http://arxiv.org/abs/2601.08441v1
- Date: Tue, 13 Jan 2026 11:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.164781
- Title: YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation
- Title(参考訳): YaPO: ドメイン適応のための学習可能なスパースアクティベーションステアリングベクトル
- Authors: Abdelaziz Bounhar, Rania Hossam Elmohamady Elbadry, Hadi Abdine, Preslav Nakov, Michalis Vazirgiannis, Guokan Shang,
- Abstract要約: しかし、もう一つのポリシー最適化 (YaPO) は、スパースオートエンコーダの潜在空間におけるテキストスパースステアリングベクトルを学習する、テキスト参照のない手法である。
スパース符号を最適化することにより、YaPOは、絡み合った、解釈可能な、効率的な操舵方向を生成する。
また,YaPOはより高速に収束し,より優れた性能を示し,高密度ステアリングベースラインに比べてトレーニング安定性が向上することを示した。
- 参考スコア(独自算出の注目度): 56.35317441010461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a \textit{reference-free} method that learns \textit{sparse steering vectors} in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly available\footnote{https://github.com/MBZUAI-Paris/YaPO}.
- Abstract(参考訳): アクティベーション介入による大規模言語モデル(LLM)のステアリングは、アライメントとパーソナライゼーションのための微調整の軽量な代替手段として登場した。
最近の Bi-directional Preference Optimization (BiPO) の研究は、密度の高いステアリングベクトルが直接選好最適化(DPO)方式で選好データから直接学習できることを示し、真理性、幻覚、安全行動の制御を可能にする。
しかし、高密度ステアリングベクターは、ニューロン多節性により複数の潜伏因子を絡み合わせることが多く、文化的アライメントのような細粒度の環境において、その効果と安定性を制限している。
本稿では,Sparse Autoencoder (SAE) の潜在空間において,textit{sparse steering vectors} を学習する \textit{reference-free} 法である,別のポリシー最適化 (YaPO) を提案する。
スパース符号を最適化することにより、YaPOは、絡み合った、解釈可能な、効率的な操舵方向を生成する。
実験により,YaPOはより高速に収束し,より優れた性能を示し,高密度ステアリングベースラインに比べてトレーニング安定性が向上することを示した。
文化的アライメント以外にも、YaPOは幻覚、富の探究、脱獄、電力探究など、様々なアライメントに関する行動に一般化している。
重要なことは、YaPOはMMLUで測定可能な劣化を伴わず、一般的な知識を保っている。
以上の結果から,YaPO は LLM の効率的,安定,きめ細かなアライメントのための一般的なレシピを提供し,制御性やドメイン適応に広く応用できることを示した。
関連するコードとデータは公開されている。footnote{https://github.com/MBzuAI-Paris/YaPO}。
関連論文リスト
- Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文 参考訳(メタデータ) (2025-06-11T03:43:30Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [17.365569075274543]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。