論文の概要: Offline Preference-Based Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2107.09251v2
- Date: Thu, 22 Jul 2021 04:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 10:31:06.240374
- Title: Offline Preference-Based Apprenticeship Learning
- Title(参考訳): オフラインの選好に基づく見習い学習
- Authors: Daniel Shin, Daniel S. Brown
- Abstract要約: 我々は、オフラインデータセットを使用して、自律システムが人間から学び、適応し、協力しようとするときに直面する2つの課題に対処する方法について研究する。
まず、オフラインデータセットを使用して、プールベースのアクティブな嗜好学習を通じて、人間の報酬関数を効率的に推測する。
第2に、この学習報酬関数から、推定された人間の意図に基づいてポリシーを最適化するオフライン強化学習を行う。
- 参考スコア(独自算出の注目度): 11.21888613165599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how an offline dataset of prior (possibly random) experience can be
used to address two challenges that autonomous systems face when they endeavor
to learn from, adapt to, and collaborate with humans : (1) identifying the
human's intent and (2) safely optimizing the autonomous system's behavior to
achieve this inferred intent. First, we use the offline dataset to efficiently
infer the human's reward function via pool-based active preference learning.
Second, given this learned reward function, we perform offline reinforcement
learning to optimize a policy based on the inferred human intent. Crucially,
our proposed approach does not require actual physical rollouts or an accurate
simulator for either the reward learning or policy optimization steps, enabling
both safe and efficient apprenticeship learning. We identify and evaluate our
approach on a subset of existing offline RL benchmarks that are well suited for
offline reward learning and also evaluate extensions of these benchmarks which
allow more open-ended behaviors. Our experiments show that offline
preference-based reward learning followed by offline reinforcement learning
enables efficient and high-performing policies, while only requiring small
numbers of preference queries. Videos available at
https://sites.google.com/view/offline-prefs.
- Abstract(参考訳): 我々は,(1)人間の意図を識別し,(2)自律システムの振る舞いを安全に最適化して,この推定意図を達成するために,自律システムが学習し,適応し,協力するために直面する2つの課題に,事前(おそらくランダムな)経験のオフラインデータセットを用いて対処する方法について検討する。
まず、オフラインデータセットを使用して、プールベースのアクティブな好み学習を通じて、人間の報酬関数を効率的に推測する。
第2に,この学習報酬関数により,推定された人間の意図に基づく方針を最適化するためにオフライン強化学習を行う。
重要なこととして,提案手法は,報酬学習と政策最適化のいずれにおいても,実際の物理的なロールアウトや正確なシミュレータを必要としない。
我々は、オフライン報酬学習に適した既存のオフラインRLベンチマークのサブセットに対するアプローチを特定し評価するとともに、よりオープンな振る舞いを可能にするこれらのベンチマークの拡張を評価する。
実験の結果,オフラインの嗜好に基づく報奨学習とオフラインの強化学習は,少数の嗜好クエリしか必要とせず,効率的かつ高パフォーマンスなポリシーを実現することがわかった。
ビデオはhttps://sites.google.com/view/offline-prefsで閲覧できる。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - How to Spend Your Robot Time: Bridging Kickstarting and Offline
Reinforcement Learning for Vision-based Robotic Manipulation [17.562522787934178]
強化学習(RL)は経験から制御を学習するのに有効であることが示されている。
RLは通常、環境との大量のオンラインインタラクションを必要とします。
準最適政策を再利用することで、ターゲットタスクにおけるオンラインインタラクションを最小化する方法について検討する。
論文 参考訳(メタデータ) (2022-05-06T16:38:59Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。