論文の概要: Few-Shot Preference Learning for Human-in-the-Loop RL
- arxiv url: http://arxiv.org/abs/2212.03363v1
- Date: Tue, 6 Dec 2022 23:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:30:24.893553
- Title: Few-Shot Preference Learning for Human-in-the-Loop RL
- Title(参考訳): 対人RLのためのFew-Shot Preference Learning
- Authors: Joey Hejna, Dorsa Sadigh
- Abstract要約: メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 13.773589150740898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) has become a more popular approach for
robotics, designing sufficiently informative reward functions for complex tasks
has proven to be extremely difficult due their inability to capture human
intent and policy exploitation. Preference based RL algorithms seek to overcome
these challenges by directly learning reward functions from human feedback.
Unfortunately, prior work either requires an unreasonable number of queries
implausible for any human to answer or overly restricts the class of reward
functions to guarantee the elicitation of the most informative queries,
resulting in models that are insufficiently expressive for realistic robotics
tasks. Contrary to most works that focus on query selection to \emph{minimize}
the amount of data required for learning reward functions, we take an opposite
approach: \emph{expanding} the pool of available data by viewing
human-in-the-loop RL through the more flexible lens of multi-task learning.
Motivated by the success of meta-learning, we pre-train preference models on
prior task data and quickly adapt them for new tasks using only a handful of
queries. Empirically, we reduce the amount of online feedback needed to train
manipulation policies in Meta-World by 20$\times$, and demonstrate the
effectiveness of our method on a real Franka Panda Robot. Moreover, this
reduction in query-complexity allows us to train robot policies from actual
human users. Videos of our results and code can be found at
https://sites.google.com/view/few-shot-preference-rl/home.
- Abstract(参考訳): 強化学習(RL)はロボット工学においてより一般的なアプローチとなっているが、複雑なタスクに対する十分な情報的報酬関数を設計することは、人間の意図と政策の搾取を捉えることができないために非常に困難であることが証明されている。
優先度に基づくRLアルゴリズムは、人間のフィードバックから直接報酬関数を学習することで、これらの課題を克服しようとしている。
残念なことに、事前の作業では、人間が答えるには不合理な数のクエリを必要とするか、最も情報性の高いクエリの活用を保証するために報酬関数のクラスを過度に制限する必要がある。
クエリ選択に焦点をあてたほとんどの研究とは対照的に、報奨関数の学習に必要なデータ量は、逆のアプローチをとる: \emph{expanding} マルチタスク学習のより柔軟なレンズを通して、ループ内のRLを見ることによって、利用可能なデータのプールを見ることができる。
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
実証的に,メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$\times$に削減し,実際のフランカパンダロボット上での手法の有効性を実証する。
さらに,クエリ複雑さの低減により,実際のユーザからロボットポリシーをトレーニングすることができる。
結果とコードのビデオはhttps://sites.google.com/view/few-shot-preference-rl/homeで見ることができる。
関連論文リスト
- Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - PREDILECT: Preferences Delineated with Zero-Shot Language-based
Reasoning in Reinforcement Learning [2.7387720378113554]
ロボット学習の新たな分野として,嗜好に基づく強化学習(RL)が出現している。
我々は、人間が提供するテキストから大言語モデル(LLM)のゼロショット機能を利用する。
シミュレーションシナリオとユーザスタディの両方において、フィードバックとその意味を分析することによって、作業の有効性を明らかにする。
論文 参考訳(メタデータ) (2024-02-23T16:30:05Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。