論文の概要: Efficient Preference-Based Reinforcement Learning Using Learned Dynamics
Models
- arxiv url: http://arxiv.org/abs/2301.04741v2
- Date: Fri, 9 Feb 2024 20:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:31:16.642660
- Title: Efficient Preference-Based Reinforcement Learning Using Learned Dynamics
Models
- Title(参考訳): 学習ダイナミクスモデルを用いた効率的選好に基づく強化学習
- Authors: Yi Liu, Gaurav Datta, Ellen Novoseller, Daniel S. Brown
- Abstract要約: 優先度に基づく強化学習(PbRL)は、ロボットが個人の好みに基づいてタスクを実行することを学習できるようにする。
PbRLを実行する際に学習力学モデルを使用することの利点と課題について検討する。
- 参考スコア(独自算出の注目度): 13.077993395762185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) can enable robots to learn to
perform tasks based on an individual's preferences without requiring a
hand-crafted reward function. However, existing approaches either assume access
to a high-fidelity simulator or analytic model or take a model-free approach
that requires extensive, possibly unsafe online environment interactions. In
this paper, we study the benefits and challenges of using a learned dynamics
model when performing PbRL. In particular, we provide evidence that a learned
dynamics model offers the following benefits when performing PbRL: (1)
preference elicitation and policy optimization require significantly fewer
environment interactions than model-free PbRL, (2) diverse preference queries
can be synthesized safely and efficiently as a byproduct of standard
model-based RL, and (3) reward pre-training based on suboptimal demonstrations
can be performed without any environmental interaction. Our paper provides
empirical evidence that learned dynamics models enable robots to learn
customized policies based on user preferences in ways that are safer and more
sample efficient than prior preference learning approaches. Supplementary
materials and code are available at
https://sites.google.com/berkeley.edu/mop-rl.
- Abstract(参考訳): 優先度に基づく強化学習(PbRL)により、ロボットは手作りの報酬関数を必要とせず、個人の好みに基づいてタスクを実行することができる。
しかしながら、既存のアプローチは高忠実度シミュレータや分析モデルへのアクセスを想定するか、大規模で安全でないオンライン環境インタラクションを必要とするモデルフリーのアプローチを取るかのどちらかである。
本稿では,PbRLを実行する際の学習力学モデルの有用性と課題について考察する。
特に,学習されたダイナミクスモデルがpbrlを行う際に,(1)選好誘発と政策最適化は,モデルフリーのpbrlよりも環境相互作用を著しく少なくし,(2)標準モデルに基づくrlの副産物として多様な選好クエリを安全かつ効率的に合成できる,(3)環境相互作用を伴わないサブオプティカルデモンストレーションに基づく事前トレーニングを報酬として実施できる,という利点がある。
本稿は,学習したダイナミクスモデルが,事前選好学習アプローチよりも安全でサンプル効率の良い方法で,ユーザの選好に基づいてカスタマイズされたポリシーを学習できることを示す実証的証拠を提供する。
補足資料とコードはhttps://sites.google.com/berkeley.edu/mop-rlで入手できる。
関連論文リスト
- Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。