論文の概要: A Minimaximalist Approach to Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2401.04056v1
- Date: Mon, 8 Jan 2024 17:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:48:55.002309
- Title: A Minimaximalist Approach to Reinforcement Learning from Human Feedback
- Title(参考訳): 人間のフィードバックによる強化学習のためのミニマキシマリストアプローチ
- Authors: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh
Agarwal
- Abstract要約: 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
- 参考スコア(独自算出の注目度): 53.05529717075474
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Self-Play Preference Optimization (SPO), an algorithm for
reinforcement learning from human feedback. Our approach is minimalist in that
it does not require training a reward model nor unstable adversarial training
and is therefore rather simple to implement. Our approach is maximalist in that
it provably handles non-Markovian, intransitive, and stochastic preferences
while being robust to the compounding errors that plague offline approaches to
sequential prediction. To achieve the preceding qualities, we build upon the
concept of a Minimax Winner (MW), a notion of preference aggregation from the
social choice theory literature that frames learning from preferences as a
zero-sum game between two policies. By leveraging the symmetry of this game, we
prove that rather than using the traditional technique of dueling two policies
to compute the MW, we can simply have a single agent play against itself while
maintaining strong convergence guarantees. Practically, this corresponds to
sampling multiple trajectories from a policy, asking a rater or preference
model to compare them, and then using the proportion of wins as the reward for
a particular trajectory. We demonstrate that on a suite of continuous control
tasks, we are able to learn significantly more efficiently than reward-model
based approaches while maintaining robustness to the intransitive and
stochastic preferences that frequently occur in practice when aggregating human
judgments.
- Abstract(参考訳): 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
私たちのアプローチは、報酬モデルや不安定な敵のトレーニングを必要とせず、実装が比較的簡単であるという点で最小限のものです。
我々のアプローチは、非マルコフ的、非推移的、確率的選好を、オフラインアプローチでシーケンシャルな予測に苦しむ複合的エラーに頑健であるという点において、最大主義的である。
先行する資質を達成するために,「ミニマックス・ウィナー(mw)」という概念,すなわち2つの政策間のゼロサムゲームとしての選好から学習する社会選択論文献からの選好アグリゲーションの概念を構築した。
このゲームの対称性を活用することで、MWを計算するために2つのポリシーをデュエルする従来の手法を使う代わりに、強い収束保証を維持しつつ、ただ1つのエージェントが自身に対してプレイできることを証明できる。
実際には、これはポリシーから複数の軌道をサンプリングし、レートや選好モデルに比較を依頼し、特定の軌道に対する報酬として勝利の割合を使用することに相当する。
連続制御タスクのスイートでは、人間の判断を集約する際に頻繁に発生する非推移的かつ確率的選好に対する堅牢性を維持しながら、報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証する。
関連論文リスト
- Aligning Large Language Models by On-Policy Self-Judgment [52.25915009010184]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行い,パラメータ効率の高いアライメントフレームワーク,メソッドを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - Preference Poisoning Attacks on Reward Model Learning [49.806139447922526]
攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文 参考訳(メタデータ) (2020-06-17T01:17:52Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。