Fugu-MT 論文翻訳(概要): Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models

論文の概要: Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models

arxiv url: http://arxiv.org/abs/2301.04741v1
Date: Wed, 11 Jan 2023 22:22:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 14:45:38.741230
Title: Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models
Title（参考訳）: 学習ダイナミクスモデルを用いた効率的選好に基づく強化学習
Authors: Yi Liu, Gaurav Datta, Ellen Novoseller, Daniel S. Brown
Abstract要約: 優先度に基づく強化学習(PbRL)により、ロボットは手作りの報酬関数を必要とせず、個人の好みに基づいてタスクを実行することができる。 PbRLを実行する際に学習力学モデルを使用することの利点と課題について検討する。
参考スコア（独自算出の注目度）: 13.121540010043548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based reinforcement learning (PbRL) can enable robots to learn to perform tasks based on an individual's preferences without requiring a hand-crafted reward function. However, existing approaches either assume access to a high-fidelity simulator or analytic model or take a model-free approach that requires extensive, possibly unsafe online environment interactions. In this paper, we study the benefits and challenges of using a learned dynamics model when performing PbRL. In particular, we provide evidence that a learned dynamics model offers the following benefits when performing PbRL: (1) preference elicitation and policy optimization require significantly fewer environment interactions than model-free PbRL, (2) diverse preference queries can be synthesized safely and efficiently as a byproduct of standard model-based RL, and (3) reward pre-training based on suboptimal demonstrations can be performed without any environmental interaction. Our paper provides empirical evidence that learned dynamics models enable robots to learn customized policies based on user preferences in ways that are safer and more sample efficient than prior preference learning approaches.
Abstract（参考訳）: 優先度に基づく強化学習(PbRL)により、ロボットは手作りの報酬関数を必要とせず、個人の好みに基づいてタスクを実行することができる。しかしながら、既存のアプローチは高忠実度シミュレータや分析モデルへのアクセスを想定するか、大規模で安全でないオンライン環境インタラクションを必要とするモデルフリーのアプローチを取るかのどちらかである。本稿では,PbRLを実行する際の学習力学モデルの有用性と課題について考察する。特に,学習されたダイナミクスモデルがpbrlを行う際に,(1)選好誘発と政策最適化は,モデルフリーのpbrlよりも環境相互作用を著しく少なくし,(2)標準モデルに基づくrlの副産物として多様な選好クエリを安全かつ効率的に合成できる,(3)環境相互作用を伴わないサブオプティカルデモンストレーションに基づく事前トレーニングを報酬として実施できる,という利点がある。本稿は,学習したダイナミクスモデルが,事前選好学習アプローチよりも安全でサンプル効率の良い方法で,ユーザの選好に基づいてカスタマイズされたポリシーを学習できることを示す実証的証拠を提供する。

関連論文リスト

Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文参考訳（メタデータ） (2025-06-21T21:49:02Z)
Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。政策とともに世界モデルを動的に適用する枠組みを提案する。我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文参考訳（メタデータ） (2025-05-19T20:14:33Z)
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。 XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文参考訳（メタデータ） (2024-05-31T17:39:06Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文参考訳（メタデータ） (2024-02-12T23:09:00Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
CostNet: An End-to-End Framework for Goal-Directed Reinforcement Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:16:14Z)
Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文参考訳（メタデータ） (2021-07-31T02:19:36Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。 MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文参考訳（メタデータ） (2021-03-25T13:50:24Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。