論文の概要: Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference
- arxiv url: http://arxiv.org/abs/2409.17401v1
- Date: Wed, 25 Sep 2024 22:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-29 00:01:07.920480
- Title: Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference
- Title(参考訳): 人間からの強化学習のためのゼロ階政策グラディエント
逆推論のないフィードバック
- Authors: Qining Zhang, Lei Ying
- Abstract要約: 本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
- 参考スコア(独自算出の注目度): 17.76565371753346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward inference (learning a reward model from human preferences) is a
critical intermediate step in Reinforcement Learning from Human Feedback (RLHF)
for fine-tuning Large Language Models (LLMs) such as ChatGPT. In practice,
reward inference faces several fundamental challenges, including double problem
misspecification, reward model evaluation without ground truth, distribution
shift, and overfitting in joint reward model and policy training. An
alternative approach that avoids these pitfalls is direct policy optimization
without reward inference, such as Direct Preference Optimization (DPO), which
provides a much simpler pipeline and has shown empirical success in LLMs.
However, DPO utilizes the closed-form expression between the optimal policy and
the reward function, which only works under the bandit setting or deterministic
MDPs. This paper develops two RLHF algorithms without reward inference, which
work for general RL problems beyond bandits and deterministic MDPs, and general
preference models beyond the Bradely-Terry model. The key idea is to estimate
the local value function difference from human preferences and then approximate
the policy gradient with a zeroth-order gradient approximator. For both
algorithms, we establish rates of convergence in terms of the number of policy
gradient iterations, as well as the number of trajectory samples and human
preference queries per iteration. Our results show there exist provably
efficient methods to solve general RLHF problems without reward inference.
- Abstract(参考訳): リワード推論(Reward inference、人間の好みから報酬モデルを学ぶ)は、ChatGPTのような微調整された大規模言語モデル(LLM)のための強化学習(Reinforcement Learning from Human Feedback、RLHF)における重要な中間段階である。
実際には、報酬推論は、二重問題特定、真理のない報酬モデル評価、流通シフト、共同報酬モデルと政策トレーニングにおける過度な適合など、いくつかの基本的な課題に直面している。
これらの落とし穴を避ける別のアプローチとして、直接優先度最適化(DPO)のような報酬推論のない直接的なポリシー最適化がある。
しかし、DPOは最適ポリシーと報酬関数の間のクローズドフォーム表現を利用しており、これはバンディット設定や決定論的MDPの下でのみ機能する。
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを開発し,帯域幅や決定論的MDPを超えた一般RL問題と,Bradely-Terryモデルを越えた一般選好モデルを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
いずれのアルゴリズムも、ポリシー勾配反復数、軌道サンプル数、イテレーション毎の人間の嗜好クエリ数の観点から収束率を確立する。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
関連論文リスト
- Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。