論文の概要: The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features
- arxiv url: http://arxiv.org/abs/2509.12934v1
- Date: Tue, 16 Sep 2025 10:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.035123
- Title: The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features
- Title(参考訳): 配向の解剖:スパース特徴のステアリングによる選好最適化の分解
- Authors: Jeremias Ferrao, Matthijs van der Lende, Ilija Lichkovski, Clement Neo,
- Abstract要約: FSRL(Feature Steering with Reinforcement Learning)は、スパースオートエンコーダ(SAE)からの解釈可能な特徴を調整することで、ステアリング行動に軽量なアダプタを訓練する。
FSRLは、解釈可能なモデル制御とアライメントの内部メカニズムの診断の両方のためのツールを提供する。
- 参考スコア(独自算出の注目度): 1.7832672957068079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models is critical for their usability and safety. However, the prevailing approach of Reinforcement Learning from Human Feedback (RLHF) induces diffuse, opaque parameter changes, making it difficult to discern what the model has internalized. Hence, we introduce Feature Steering with Reinforcement Learning (FSRL), a transparent alignment framework that trains a lightweight adapter to steer behavior by modulating interpretable features from a Sparse Autoencoder (SAE). First, we demonstrate that FSRL is an effective method for preference optimization and is comparable with current RLHF methods. We then perform mechanistic analysis on the trained adapter, and find that its policy systematically promotes style features over explicit alignment concepts, suggesting that the preference optimization process rewards stylistic presentation as a proxy for quality. Ultimately, we hope that FSRL provides a tool for both interpretable model control and diagnosing the internal mechanisms of alignment.
- Abstract(参考訳): 大規模言語モデルのアラインメントは、ユーザビリティと安全性にとって重要だ。
しかし,RLHF(Reinforcement Learning from Human Feedback)の一般的なアプローチは,拡散・不透明なパラメータ変化を誘発し,モデルの内部化を識別することが困難である。
そこで本稿では,Sparse Autoencoder (SAE) から解釈可能な特徴を調整することで,軽量なアダプタをステアリングする透過的アライメントフレームワークであるFeature Steering with Reinforcement Learning (FSRL) を紹介する。
まず、FSRLは好みの最適化に有効な手法であり、現在のRLHF法と同等であることを示す。
次に、トレーニングされたアダプタの力学解析を行い、そのポリシーが明示的なアライメント概念よりもスタイルの特徴を体系的に促進し、好みの最適化プロセスが品質のプロキシとしてスタイリスティックな表現に報いることを示唆する。
最終的に、FSRLは、解釈可能なモデル制御と、アライメントの内部メカニズムの診断の両方のためのツールを提供することを期待します。
関連論文リスト
- Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - From RLHF to Direct Alignment: A Theoretical Unification of Preference Learning for Large Language Models [0.7366405857677227]
本調査は、選好学習手法のテキスト理論的統合を提供する。
それぞれの軸を正確な定義と定理で定式化する。
我々は50以上の論文にまたがる経験的知見を合成し,方法選択のための実践者の意思決定ガイドを提供する。
論文 参考訳(メタデータ) (2026-01-03T08:33:26Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - Surrogate Fitness Metrics for Interpretable Reinforcement Learning [7.889696505137217]
我々は、情報的かつ多様な政策実証を生成するために、初期状態を摂動させる進化的最適化フレームワークを採用している。
共同サロゲート適合度関数は、局所的な多様性、行動的確実性、グローバルな人口多様性を組み合わせることで最適化を導く。
本研究は、サロゲート適合関数の精製と系統解析により、RLモデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-04-20T15:01:19Z) - Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。