論文の概要: Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling
- arxiv url: http://arxiv.org/abs/2212.08232v1
- Date: Fri, 16 Dec 2022 01:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:25:09.083791
- Title: Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling
- Title(参考訳): 不確実性誘導型人間エキスパートサンプリングによるオフラインロボット強化学習
- Authors: Ashish Kumar, Ilya Kuzovkin
- Abstract要約: バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
- 参考スコア(独自算出の注目度): 11.751910133386254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in batch (offline) reinforcement learning have shown
promising results in learning from available offline data and proved offline
reinforcement learning to be an essential toolkit in learning control policies
in a model-free setting. An offline reinforcement learning algorithm applied to
a dataset collected by a suboptimal non-learning-based algorithm can result in
a policy that outperforms the behavior agent used to collect the data. Such a
scenario is frequent in robotics, where existing automation is collecting
operational data. Although offline learning techniques can learn from data
generated by a sub-optimal behavior agent, there is still an opportunity to
improve the sample complexity of existing offline reinforcement learning
algorithms by strategically introducing human demonstration data into the
training process. To this end, we propose a novel approach that uses
uncertainty estimation to trigger the injection of human demonstration data and
guide policy training towards optimal behavior while reducing overall sample
complexity. Our experiments show that this approach is more sample efficient
when compared to a naive way of combining expert data with data collected from
a sub-optimal agent. We augmented an existing offline reinforcement learning
algorithm Conservative Q-Learning with our approach and performed experiments
on data collected from MuJoCo and OffWorld Gym learning environments.
- Abstract(参考訳): バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する有望な結果を示し、オフライン強化学習は、モデルフリーな環境で制御ポリシーを学ぶ上で不可欠なツールキットであることを証明した。
準最適非学習アルゴリズムによって収集されたデータセットに適用されるオフライン強化学習アルゴリズムは、データ収集に使用される行動エージェントよりも優れたポリシーをもたらすことができる。
このようなシナリオは、既存の自動化が運用データを収集するロボット工学において頻繁に発生する。
オフライン学習技術は、サブ最適行動エージェントが生成したデータから学習することができるが、既存のオフライン強化学習アルゴリズムのサンプル複雑さを、戦略的に人間のデモンストレーションデータをトレーニングプロセスに導入することで改善する機会がある。
そこで本研究では,不確実性推定を用いてヒトのデモンストレーションデータの注入を誘発し,全体的なサンプル複雑性を低減しつつ,最適な行動に向けて政策訓練を指導する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
我々は、既存のオフライン強化学習アルゴリズムである保守的Q-Learningを拡張し、MuJoCoおよびOFWGym学習環境から収集したデータについて実験を行った。
関連論文リスト
- Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Robust online active learning [0.7734726150561089]
本研究では, 汚染データストリームにおけるオンラインアクティブ線形回帰の性能について検討する。
本稿では,条件付きD-最適アルゴリズムの探索領域を限定し,ロバストな推定器を用いた解を提案する。
論文 参考訳(メタデータ) (2023-02-01T13:14:26Z) - Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文 参考訳(メタデータ) (2023-01-27T14:17:45Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。