論文の概要: Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model
- arxiv url: http://arxiv.org/abs/2512.21917v1
- Date: Fri, 26 Dec 2025 08:22:41 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:34.706281
- Title: Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model
- Title(参考訳): 半パラメトリック推論最適化:あなたの言語モデルは秘密裏に単一インデックスモデルである
- Authors: Nathan Kallus,
- Abstract要約: 我々は、未知の、制約のない複雑さの下で、嗜好に対するポリシーの整合性について研究する。
ニューラルネットワークとバッチデータに適した一階最適化を使用します。
- 参考スコア(独自算出の注目度): 43.74350307533018
- License:
- Abstract: Aligning large language models to preference data is commonly implemented by assuming a known link function between the distribution of observed preferences and the unobserved rewards (e.g., a logistic link as in Bradley-Terry). If the link is wrong, however, inferred rewards can be biased and policies be misaligned. We study policy alignment to preferences under an unknown and unrestricted link. We consider an $f$-divergence-constrained reward maximization problem and show that realizability of the solution in a policy class implies a semiparametric single-index binary choice model, where a scalar-valued index determined by a policy captures the dependence on demonstrations and the rest of the preference distribution is an unrestricted function thereof. Rather than focus on estimation of identifiable finite-dimensional structural parameters in the index as in econometrics, we focus on policy learning, focusing on error to the optimal policy and allowing unidentifiable and nonparametric indices. We develop a variety of policy learners based on profiling the link function, orthogonalizing the link function, and using link-agnostic bipartite ranking objectives. We analyze these and provide finite-sample policy error bounds that depend on generic functional complexity measures of the index class. We further consider practical implementations using first-order optimization suited to neural networks and batched data. The resulting methods are robust to unknown preference noise distribution and scale, while preserving the direct optimization of policies without explicitly fitting rewards.
- Abstract(参考訳): 好みデータに対する大規模言語モデルのアライメントは、観測された好みの分布と観測されていない報酬(例えばブラッドリー・テリーのようなロジスティックなリンク)の間の既知のリンク関数を仮定することで、一般的に実装される。
しかし、リンクが間違っていれば、推論された報酬は偏りがあり、ポリシーが一致しない。
我々は、未知の制約のないリンクの下で、嗜好に合わせた政策アライメントを研究する。
我々は、$f$-divergence-constrained reward maximization問題を考え、ポリシークラスにおける解の実現可能性を示す半パラメトリックな単一インデックス二分選択モデルを示すことを示す。
指標中の有限次元構造パラメータの同定に焦点をあてるのではなく、政策学習に焦点をあて、最適な政策への誤差に焦点をあて、不特定かつ非パラメトリックな指標を許容する。
リンク関数のプロファイリング、リンク関数の直交化、およびリンクに依存しない二部格ランキングの目的を用いた多種多様なポリシー学習者を開発する。
我々はこれらを解析し、指数クラスの一般的な機能的複雑性尺度に依存する有限サンプルポリシー誤差境界を提供する。
さらに、ニューラルネットワークやバッチデータに適した一階最適化を用いた実践的な実装についても検討する。
得られた手法は、明確な報奨を伴わずにポリシーの直接的な最適化を保ちながら、未知の選好ノイズ分布とスケールに対して堅牢である。
関連論文リスト
- Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization [4.154714580436713]
本稿では,まず実行可能な候補ポリシーのライブラリを構築し,次に最適なポリシーを選択するためのメタ政治を学習するモジュラーフレームワークを提案する。
我々は、トレーニングセット上でクロスバリデーションによってトレーニングされた最適ポリシーツリーのアンサンブルを使用して、メタポリティクスを実装し、ポリシーの選択を完全にデータ駆動にする。
結果を再現するコードはすべてhttps://anonymous.4open.science/r/Prescribe-then-Select-TMLRにある。
論文 参考訳(メタデータ) (2025-09-09T23:56:16Z) - On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability [2.180257135067774]
モデルベース強化学習(RL)のための政策段階的手法を提案する。
ネットワークにおけるマルコフ決定過程(MDP)から得られる定常分布のタイプを利用する。
我々は,SAGEに基づく政策段階が局所的に収束していることを示し,その後悔を得る。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。