Fugu-MT 論文翻訳(概要): A Minimaximalist Approach to Reinforcement Learning from Human Feedback

論文の概要: A Minimaximalist Approach to Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2401.04056v1
Date: Mon, 8 Jan 2024 17:55:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 14:48:55.002309
Title: A Minimaximalist Approach to Reinforcement Learning from Human Feedback
Title（参考訳）: 人間のフィードバックによる強化学習のためのミニマキシマリストアプローチ
Authors: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal
Abstract要約: 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
参考スコア（独自算出の注目度）: 53.05529717075474
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present Self-Play Preference Optimization (SPO), an algorithm for reinforcement learning from human feedback. Our approach is minimalist in that it does not require training a reward model nor unstable adversarial training and is therefore rather simple to implement. Our approach is maximalist in that it provably handles non-Markovian, intransitive, and stochastic preferences while being robust to the compounding errors that plague offline approaches to sequential prediction. To achieve the preceding qualities, we build upon the concept of a Minimax Winner (MW), a notion of preference aggregation from the social choice theory literature that frames learning from preferences as a zero-sum game between two policies. By leveraging the symmetry of this game, we prove that rather than using the traditional technique of dueling two policies to compute the MW, we can simply have a single agent play against itself while maintaining strong convergence guarantees. Practically, this corresponds to sampling multiple trajectories from a policy, asking a rater or preference model to compare them, and then using the proportion of wins as the reward for a particular trajectory. We demonstrate that on a suite of continuous control tasks, we are able to learn significantly more efficiently than reward-model based approaches while maintaining robustness to the intransitive and stochastic preferences that frequently occur in practice when aggregating human judgments.
Abstract（参考訳）: 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。私たちのアプローチは、報酬モデルや不安定な敵のトレーニングを必要とせず、実装が比較的簡単であるという点で最小限のものです。我々のアプローチは、非マルコフ的、非推移的、確率的選好を、オフラインアプローチでシーケンシャルな予測に苦しむ複合的エラーに頑健であるという点において、最大主義的である。先行する資質を達成するために,「ミニマックス・ウィナー(mw)」という概念,すなわち2つの政策間のゼロサムゲームとしての選好から学習する社会選択論文献からの選好アグリゲーションの概念を構築した。このゲームの対称性を活用することで、MWを計算するために2つのポリシーをデュエルする従来の手法を使う代わりに、強い収束保証を維持しつつ、ただ1つのエージェントが自身に対してプレイできることを証明できる。実際には、これはポリシーから複数の軌道をサンプリングし、レートや選好モデルに比較を依頼し、特定の軌道に対する報酬として勝利の割合を使用することに相当する。連続制御タスクのスイートでは、人間の判断を集約する際に頻繁に発生する非推移的かつ確率的選好に対する堅牢性を維持しながら、報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証する。

関連論文リスト

Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。理論上は魅力的だが、機械学習における優位性の応用は乏しい。まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文参考訳（メタデータ） (2024-02-05T03:21:23Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文参考訳（メタデータ） (2023-02-06T05:22:27Z)
A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文参考訳（メタデータ） (2021-08-05T15:58:25Z)
Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文参考訳（メタデータ） (2021-03-14T15:00:08Z)
Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文参考訳（メタデータ） (2021-02-05T14:26:00Z)
Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文参考訳（メタデータ） (2020-09-13T21:01:38Z)
Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文参考訳（メタデータ） (2020-06-17T01:17:52Z)
Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2020-06-06T17:19:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。