論文の概要: A Minimaximalist Approach to Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2401.04056v1
- Date: Mon, 8 Jan 2024 17:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:48:55.002309
- Title: A Minimaximalist Approach to Reinforcement Learning from Human Feedback
- Title(参考訳): 人間のフィードバックによる強化学習のためのミニマキシマリストアプローチ
- Authors: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh
Agarwal
- Abstract要約: 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
- 参考スコア(独自算出の注目度): 53.05529717075474
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Self-Play Preference Optimization (SPO), an algorithm for
reinforcement learning from human feedback. Our approach is minimalist in that
it does not require training a reward model nor unstable adversarial training
and is therefore rather simple to implement. Our approach is maximalist in that
it provably handles non-Markovian, intransitive, and stochastic preferences
while being robust to the compounding errors that plague offline approaches to
sequential prediction. To achieve the preceding qualities, we build upon the
concept of a Minimax Winner (MW), a notion of preference aggregation from the
social choice theory literature that frames learning from preferences as a
zero-sum game between two policies. By leveraging the symmetry of this game, we
prove that rather than using the traditional technique of dueling two policies
to compute the MW, we can simply have a single agent play against itself while
maintaining strong convergence guarantees. Practically, this corresponds to
sampling multiple trajectories from a policy, asking a rater or preference
model to compare them, and then using the proportion of wins as the reward for
a particular trajectory. We demonstrate that on a suite of continuous control
tasks, we are able to learn significantly more efficiently than reward-model
based approaches while maintaining robustness to the intransitive and
stochastic preferences that frequently occur in practice when aggregating human
judgments.
- Abstract(参考訳): 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
私たちのアプローチは、報酬モデルや不安定な敵のトレーニングを必要とせず、実装が比較的簡単であるという点で最小限のものです。
我々のアプローチは、非マルコフ的、非推移的、確率的選好を、オフラインアプローチでシーケンシャルな予測に苦しむ複合的エラーに頑健であるという点において、最大主義的である。
先行する資質を達成するために,「ミニマックス・ウィナー(mw)」という概念,すなわち2つの政策間のゼロサムゲームとしての選好から学習する社会選択論文献からの選好アグリゲーションの概念を構築した。
このゲームの対称性を活用することで、MWを計算するために2つのポリシーをデュエルする従来の手法を使う代わりに、強い収束保証を維持しつつ、ただ1つのエージェントが自身に対してプレイできることを証明できる。
実際には、これはポリシーから複数の軌道をサンプリングし、レートや選好モデルに比較を依頼し、特定の軌道に対する報酬として勝利の割合を使用することに相当する。
連続制御タスクのスイートでは、人間の判断を集約する際に頻繁に発生する非推移的かつ確率的選好に対する堅牢性を維持しながら、報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証する。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文 参考訳(メタデータ) (2020-06-17T01:17:52Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。