論文の概要: The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features
- arxiv url: http://arxiv.org/abs/2509.12934v1
- Date: Tue, 16 Sep 2025 10:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.035123
- Title: The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features
- Title(参考訳): 配向の解剖:スパース特徴のステアリングによる選好最適化の分解
- Authors: Jeremias Ferrao, Matthijs van der Lende, Ilija Lichkovski, Clement Neo,
- Abstract要約: FSRL(Feature Steering with Reinforcement Learning)は、スパースオートエンコーダ(SAE)からの解釈可能な特徴を調整することで、ステアリング行動に軽量なアダプタを訓練する。
FSRLは、解釈可能なモデル制御とアライメントの内部メカニズムの診断の両方のためのツールを提供する。
- 参考スコア(独自算出の注目度): 1.7832672957068079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models is critical for their usability and safety. However, the prevailing approach of Reinforcement Learning from Human Feedback (RLHF) induces diffuse, opaque parameter changes, making it difficult to discern what the model has internalized. Hence, we introduce Feature Steering with Reinforcement Learning (FSRL), a transparent alignment framework that trains a lightweight adapter to steer behavior by modulating interpretable features from a Sparse Autoencoder (SAE). First, we demonstrate that FSRL is an effective method for preference optimization and is comparable with current RLHF methods. We then perform mechanistic analysis on the trained adapter, and find that its policy systematically promotes style features over explicit alignment concepts, suggesting that the preference optimization process rewards stylistic presentation as a proxy for quality. Ultimately, we hope that FSRL provides a tool for both interpretable model control and diagnosing the internal mechanisms of alignment.
- Abstract(参考訳): 大規模言語モデルのアラインメントは、ユーザビリティと安全性にとって重要だ。
しかし,RLHF(Reinforcement Learning from Human Feedback)の一般的なアプローチは,拡散・不透明なパラメータ変化を誘発し,モデルの内部化を識別することが困難である。
そこで本稿では,Sparse Autoencoder (SAE) から解釈可能な特徴を調整することで,軽量なアダプタをステアリングする透過的アライメントフレームワークであるFeature Steering with Reinforcement Learning (FSRL) を紹介する。
まず、FSRLは好みの最適化に有効な手法であり、現在のRLHF法と同等であることを示す。
次に、トレーニングされたアダプタの力学解析を行い、そのポリシーが明示的なアライメント概念よりもスタイルの特徴を体系的に促進し、好みの最適化プロセスが品質のプロキシとしてスタイリスティックな表現に報いることを示唆する。
最終的に、FSRLは、解釈可能なモデル制御と、アライメントの内部メカニズムの診断の両方のためのツールを提供することを期待します。
関連論文リスト
- Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - Surrogate Fitness Metrics for Interpretable Reinforcement Learning [7.889696505137217]
我々は、情報的かつ多様な政策実証を生成するために、初期状態を摂動させる進化的最適化フレームワークを採用している。
共同サロゲート適合度関数は、局所的な多様性、行動的確実性、グローバルな人口多様性を組み合わせることで最適化を導く。
本研究は、サロゲート適合関数の精製と系統解析により、RLモデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-04-20T15:01:19Z) - Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。