論文の概要: Reinforcement Learning from Diverse Human Preferences
- arxiv url: http://arxiv.org/abs/2301.11774v2
- Date: Mon, 30 Jan 2023 08:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 20:19:24.504129
- Title: Reinforcement Learning from Diverse Human Preferences
- Title(参考訳): 多様な人間選好からの強化学習
- Authors: Wanqi Xue, Bo An, Shuicheng Yan, Zhongwen Xu
- Abstract要約: 本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
- 参考スコア(独自算出の注目度): 95.61153128294939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The complexity of designing reward functions has been a major obstacle to the
wide application of deep reinforcement learning (RL) techniques. Describing an
agent's desired behaviors and properties can be difficult, even for experts. A
new paradigm called reinforcement learning from human preferences (or
preference-based RL) has emerged as a promising solution, in which reward
functions are learned from human preference labels among behavior trajectories.
However, existing methods for preference-based RL are limited by the need for
accurate oracle preference labels. This paper addresses this limitation by
developing a method for crowd-sourcing preference labels and learning from
diverse human preferences. The key idea is to stabilize reward learning through
regularization and correction in a latent space. To ensure temporal
consistency, a strong constraint is imposed on the reward model that forces its
latent space to be close to the prior distribution. Additionally, a
confidence-based reward model ensembling method is designed to generate more
stable and reliable predictions. The proposed method is tested on a variety of
tasks in DMcontrol and Meta-world and has shown consistent and significant
improvements over existing preference-based RL algorithms when learning from
diverse feedback, paving the way for real-world applications of RL methods.
- Abstract(参考訳): 報酬関数を設計する複雑さは、深層強化学習(RL)技術の幅広い応用にとって大きな障害となっている。
エージェントの望ましい行動や特性を記述することは、専門家にとっても難しい。
人間の嗜好(または嗜好に基づくRL)からの強化学習と呼ばれる新しいパラダイムが、行動軌跡内の人間の嗜好ラベルから報酬関数を学習する有望な解決策として登場した。
しかし,従来のRL法は,正確なオラクル選好ラベルの必要性によって制限されている。
本稿では,この制限に対処するため,人選好ラベルをクラウドソーシングし,人選好から学習する手法を開発した。
鍵となるアイデアは、潜在空間における正規化と修正を通じて報酬学習を安定させることである。
時間的整合性を確保するため、報酬モデルに強い制約が課せられ、その潜在空間は以前の分布に近くなる。
さらに、信頼性に基づく報酬モデルアンサンブル法は、より安定で信頼性の高い予測を生成するように設計されている。
提案手法はDMcontrol と Meta-world の様々なタスクでテストされ,様々なフィードバックから学習し,実世界の RL 手法への道を開く際に,既存の選好ベース RL アルゴリズムよりも一貫した,重要な改善が見られた。
関連論文リスト
- Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。