論文の概要: Is RLHF More Difficult than Standard RL?
- arxiv url: http://arxiv.org/abs/2306.14111v2
- Date: Fri, 3 Nov 2023 18:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:50:29.669980
- Title: Is RLHF More Difficult than Standard RL?
- Title(参考訳): RLHFは標準RLよりも難易度が高いか?
- Authors: Yuanhao Wang, Qinghua Liu, Chi Jin
- Abstract要約: ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。
理論的には、幅広い選好モデルに対して、我々は、報酬に基づくRLのアルゴリズムと技法を直接的に解き、少ないか、余分なコストで解決できることを証明している。
- 参考スコア(独自算出の注目度): 31.972393805014903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from Human Feedback (RLHF) learns from preference
signals, while standard Reinforcement Learning (RL) directly learns from reward
signals. Preferences arguably contain less information than rewards, which
makes preference-based RL seemingly more difficult. This paper theoretically
proves that, for a wide range of preference models, we can solve
preference-based RL directly using existing algorithms and techniques for
reward-based RL, with small or no extra costs. Specifically, (1) for
preferences that are drawn from reward-based probabilistic models, we reduce
the problem to robust reward-based RL that can tolerate small errors in
rewards; (2) for general arbitrary preferences where the objective is to find
the von Neumann winner, we reduce the problem to multiagent reward-based RL
which finds Nash equilibria for factored Markov games with a restricted set of
policies. The latter case can be further reduced to adversarial MDP when
preferences only depend on the final state. We instantiate all reward-based RL
subroutines by concrete provable algorithms, and apply our theory to a large
class of models including tabular MDPs and MDPs with generic function
approximation. We further provide guarantees when K-wise comparisons are
available.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。
選好は報奨よりも情報が少ないため、選好ベースのRLは明らかに困難である。
本論文は,幅広い選好モデルにおいて,既存のアルゴリズムや手法を用いて,報酬ベースのrlを直接解くことができることを理論的に証明する。
具体的には、(1)報酬ベースの確率モデルから引き出された選好については、報酬の小さな誤差を許容する頑健な報奨ベースのrlに、(2)フォン・ノイマンの勝者を見つけることを目的とした一般の任意の選好については、制限されたポリシーの制約付きマルコフゲームに対してナッシュ平衡を求めるマルチエージェントの報奨ベースのrlに、問題を還元する。
後者の場合、好みが最終状態にのみ依存する場合、さらに敵のMDPに還元することができる。
具体的証明可能なアルゴリズムによりすべての報酬に基づくRLサブルーチンをインスタンス化し、汎用関数近似を用いた表型MDPやMDPを含むモデルのモデルに適用する。
さらに、K-wise比較が利用可能である場合の保証も提供する。
関連論文リスト
- Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。