論文の概要: Dataset Reset Policy Optimization for RLHF
- arxiv url: http://arxiv.org/abs/2404.08495v1
- Date: Fri, 12 Apr 2024 14:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:47:19.153623
- Title: Dataset Reset Policy Optimization for RLHF
- Title(参考訳): RLHFのデータセットリセットポリシー最適化
- Authors: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun,
- Abstract要約: Reinforcement Learning from Human Preference-based feedbackは、微調整生成モデルの一般的なパラダイムである。
オフラインの選好データセットから報酬モデルを学習し、学習した報奨モデルを最適化するためにオンラインRLを実行する。
本稿では,リセットのアイデアを活用することで,証明可能な保証付きRLHFアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 45.52287328464934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.
- Abstract(参考訳): Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative model, has been produced impressive model such as GPT-4 and Claude3 Opus。
オフラインの選好データセットから報酬モデルを学習し、学習した報奨モデルを最適化するためにオンラインRLを実行する。
本稿では,リセットのアイデアを活用することで,証明可能な保証付きRLHFアルゴリズムを提案する。
オフラインの嗜好データセットが情報的状態(ラベル付け者が好むデータ)を提供するという事実により、我々の新しいアルゴリズムであるデータセットリセットポリシー最適化(DR-PO)は、既存のオフラインの嗜好データセットをデータセットリセットを介してオンラインのポリシートレーニング手順に統合する。
理論的には, DR-POは, 一般関数近似の下でのオフラインデータセットでカバーされる任意のポリシーと同程度に, 有限サンプルの複雑さで実行できることが示される。
実験では,TL;DR要約とHHデータセットの両方において,GPT4の勝利率の基準の下でDR-POの生成がPPO(Proximal Policy Optimization)とDPO(Direction Preference Optimization)より優れていることを示した。
この作業のコードはhttps://github.com/Cornell-RL/drpoにある。
関連論文リスト
- Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。