論文の概要: Automating Reinforcement Learning with Example-based Resets
- arxiv url: http://arxiv.org/abs/2204.02041v2
- Date: Wed, 6 Apr 2022 02:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 10:58:09.043618
- Title: Automating Reinforcement Learning with Example-based Resets
- Title(参考訳): サンプルベースリセットによる強化学習の自動化
- Authors: Jigang Kim, J. hyeon Park, Daesol Cho and H. Jin Kim
- Abstract要約: 既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
- 参考スコア(独自算出の注目度): 19.86233948960312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning has enabled robots to learn motor skills from
environmental interactions with minimal to no prior knowledge. However,
existing reinforcement learning algorithms assume an episodic setting, in which
the agent resets to a fixed initial state distribution at the end of each
episode, to successfully train the agents from repeated trials. Such reset
mechanism, while trivial for simulated tasks, can be challenging to provide for
real-world robotics tasks. Resets in robotic systems often require extensive
human supervision and task-specific workarounds, which contradicts the goal of
autonomous robot learning. In this paper, we propose an extension to
conventional reinforcement learning towards greater autonomy by introducing an
additional agent that learns to reset in a self-supervised manner. The reset
agent preemptively triggers a reset to prevent manual resets and implicitly
imposes a curriculum for the forward agent. We apply our method to learn from
scratch on a suite of simulated and real-world continuous control tasks and
demonstrate that the reset agent successfully learns to reduce manual resets
whilst also allowing the forward policy to improve gradually over time.
- Abstract(参考訳): 深層強化学習により、ロボットは最小から無の知識で環境相互作用から運動スキルを学習できるようになった。
しかし、既存の強化学習アルゴリズムでは、エージェントが各エピソードの最後に固定された初期状態分布にリセットし、繰り返し試行からエージェントを訓練するエピソード設定を前提としている。
このようなリセット機構は、シミュレーションタスクでは簡単なものの、現実のロボットタスクでは難しい。
ロボットシステムのリセットは、ロボットの自律学習の目標と矛盾する、広範な人間の監督とタスク固有の回避を必要とすることが多い。
本稿では,自己指導型リセット学習を付加するエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
リセットエージェントは、予めリセットをトリガーして手動リセットを防止し、フォワードエージェントのカリキュラムを暗黙的に強制する。
シミュレーションおよび実世界の連続制御タスクのスイートをスクラッチから学習するために本手法を適用し,リセットエージェントが手動リセットの削減に成功し,フォワードポリシーが時間とともに徐々に改善されることを実証する。
関連論文リスト
- Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。