論文の概要: The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features
- arxiv url: http://arxiv.org/abs/2509.12934v2
- Date: Thu, 25 Sep 2025 20:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 18:47:02.694653
- Title: The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features
- Title(参考訳): 配向の解剖:スパース特徴のステアリングによる選好最適化の分解
- Authors: Jeremias Ferrao, Matthijs van der Lende, Ilija Lichkovski, Clement Neo,
- Abstract要約: このフレームワークは、解釈可能なスパース機能を調節することで、モデル動作を操る軽量なアダプタを訓練する。
この機構は, 学習後プロセスの挙動変化を近似するのに十分な原理と表現性を有することを示す。
全体として、FSRLは解釈可能な制御インターフェースを提供し、フィーチャレベルでの好み最適化の圧力がどのように現れるかを診断する実用的な方法を提供している。
- 参考スコア(独自算出の注目度): 1.7832672957068079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevailing alignment methods induce opaque parameter changes, making it difficult to audit what the model truly learns. To address this, we introduce Feature Steering with Reinforcement Learning (FSRL), a framework that trains a lightweight adapter to steer model behavior by modulating interpretable sparse features. First, we theoretically show that this mechanism is principled and expressive enough to approximate the behavioral shifts of post-training processes. Then, we apply this framework to the task of preference optimization and perform a causal analysis of the learned policy. We find that the model relies on stylistic presentation as a proxy for quality, disproportionately steering features related to style and formatting over those tied to alignment concepts like honesty. Despite exploiting this heuristic, FSRL proves to be an effective alignment method, achieving a substantial reduction in preference loss. Overall, FSRL offers an interpretable control interface and a practical way to diagnose how preference optimization pressures manifest at the feature level.
- Abstract(参考訳): 一般的なアライメント手法は不透明なパラメータの変更を引き起こし、モデルが本当に何を学んでいるかを評価するのが難しくなる。
そこで本稿では,FSRL(Feature Steering with Reinforcement Learning)について紹介する。
まず、このメカニズムは、後学習過程の挙動変化を近似するのに十分な原理と表現性を持つことを示す。
そして,この枠組みを選好最適化の課題に適用し,学習方針の因果解析を行う。
このモデルは質の代用としてスタイリスティックなプレゼンテーションに依存しており、正直なようにアライメントの概念に結びついているものよりも、スタイルやフォーマッティングに関連する不公平な特徴を定式化しています。
このヒューリスティックを利用しても、FSRLは効果的なアライメント法であることが証明され、選好損失を大幅に減少させる。
全体として、FSRLは解釈可能な制御インターフェースを提供し、フィーチャレベルでの好み最適化の圧力がどのように現れるかを診断する実用的な方法を提供している。
関連論文リスト
- Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - Surrogate Fitness Metrics for Interpretable Reinforcement Learning [7.889696505137217]
我々は、情報的かつ多様な政策実証を生成するために、初期状態を摂動させる進化的最適化フレームワークを採用している。
共同サロゲート適合度関数は、局所的な多様性、行動的確実性、グローバルな人口多様性を組み合わせることで最適化を導く。
本研究は、サロゲート適合関数の精製と系統解析により、RLモデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-04-20T15:01:19Z) - Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。