論文の概要: Provable Reinforcement Learning from Human Feedback with an Unknown Link Function
- arxiv url: http://arxiv.org/abs/2506.03066v1
- Date: Tue, 03 Jun 2025 16:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.836293
- Title: Provable Reinforcement Learning from Human Feedback with an Unknown Link Function
- Title(参考訳): 未知リンク関数を用いた人間のフィードバックからの確率的強化学習
- Authors: Qining Zhang, Lei Ying,
- Abstract要約: 本稿では,未知のリンク関数を持つ一般RLHF問題について検討する。
そこで本稿では,ZSPOと呼ばれる新しいポリシー最適化アルゴリズムを提案する。
穏やかな条件下では、ZSPOはポリシーの反復数とイテレーション毎の軌道数に依存する収束率で定常的なポリシーに収束する。
- 参考スコア(独自算出の注目度): 15.038210624870656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Link functions, which characterize how human preferences are generated from the value function of an RL problem, are a crucial component in designing RLHF algorithms. Almost all RLHF algorithms, including state-of-the-art ones in empirical studies such as DPO and PPO, assume the link function is known to the agent (e.g., a logistic function according to the Bradley-Terry model), which is arguably unrealistic considering the complex nature of human preferences. To avoid link function mis-specification, this paper studies general RLHF problems with unknown link functions. We propose a novel policy optimization algorithm called ZSPO based on a new zeroth-order policy optimization method, where the key is to use human preference to construct a parameter update direction that is positively correlated with the true policy gradient direction. ZSPO achieves it by estimating the sign of the value function difference instead of estimating the gradient from the value function difference, so it does not require knowing the link function. Under mild conditions, ZSPO converges to a stationary policy with a polynomial convergence rate depending on the number of policy iterations and trajectories per iteration. Numerical results also show the superiority of ZSPO under link function mismatch.
- Abstract(参考訳): RL問題の値関数から人間の嗜好がどのように生成されるかを特徴付けるリンク関数は、RLHFアルゴリズムの設計において重要な要素である。
DPOやPPOのような経験的研究における最先端のアルゴリズムを含むほとんどのRLHFアルゴリズムは、リンク関数がエージェント(例えばブラッドリー・テリーモデルによるロジスティック関数)に知られていると仮定する。
本稿では,リンク関数の不特定を避けるために,未知のリンク関数を持つ一般RLHF問題について検討する。
そこで我々は,ZSPOと呼ばれる新しい政策最適化アルゴリズムを提案し,その鍵となるのは,真の政策勾配方向と正の相関を持つパラメータ更新方向を構築することである。
ZSPOは、値関数差から勾配を推定するのではなく、値関数差の符号を推定することでこれを達成している。
穏やかな条件下では、ZSPOはポリシーの反復数と反復毎の軌道数に依存する多項式収束率で定常ポリシーに収束する。
また, リンク関数ミスマッチにおけるZSPOの優位性を示した。
関連論文リスト
- Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。