論文の概要: Autonomous Reinforcement Learning: Formalism and Benchmarking
- arxiv url: http://arxiv.org/abs/2112.09605v1
- Date: Fri, 17 Dec 2021 16:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 17:11:52.342421
- Title: Autonomous Reinforcement Learning: Formalism and Benchmarking
- Title(参考訳): 自律強化学習:形式主義とベンチマーク
- Authors: Archit Sharma, Kelvin Xu, Nikhil Sardana, Abhishek Gupta, Karol
Hausman, Sergey Levine, Chelsea Finn
- Abstract要約: 人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
- 参考スコア(独自算出の注目度): 106.25788536376007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) provides a naturalistic framing for learning
through trial and error, which is appealing both because of its simplicity and
effectiveness and because of its resemblance to how humans and animals acquire
skills through experience. However, real-world embodied learning, such as that
performed by humans and animals, is situated in a continual, non-episodic
world, whereas common benchmark tasks in RL are episodic, with the environment
resetting between trials to provide the agent with multiple attempts. This
discrepancy presents a major challenge when attempting to take RL algorithms
developed for episodic simulated environments and run them on real-world
platforms, such as robots. In this paper, we aim to address this discrepancy by
laying out a framework for Autonomous Reinforcement Learning (ARL):
reinforcement learning where the agent not only learns through its own
experience, but also contends with lack of human supervision to reset between
trials. We introduce a simulated benchmark EARL around this framework,
containing a set of diverse and challenging simulated tasks reflective of the
hurdles introduced to learning when only a minimal reliance on extrinsic
intervention can be assumed. We show that standard approaches to episodic RL
and existing approaches struggle as interventions are minimized, underscoring
the need for developing new algorithms for reinforcement learning with a
greater focus on autonomy.
- Abstract(参考訳): 強化学習(rl)は、試行錯誤を通じて学ぶための自然主義的な枠組みを提供するが、それはその単純さと有効性と、人間と動物が経験を通じてスキルを取得する方法に類似しているため、魅力的である。
しかしながら、人間や動物によって行われるような現実世界の具体的学習は連続的で非エポゾディックな世界にあり、一方RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を提供する環境がリセットされる。
この違いは、擬似環境向けに開発されたRLアルゴリズムをロボットのような現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
本稿では,自律強化学習(autonomous reinforcement learning:arl)の枠組みを構築し,エージェントが自身の経験から学ぶだけでなく,治験の間にリセットするための人間の監督が欠如していることにも反論する。
本フレームワークの周辺にシミュレーションベンチマークEARLを導入し,外在的介入を最小限に抑えることができる場合の学習に導入されたハードルを反映した,多様かつ困難なシミュレーションタスクのセットを含む。
RLと既存のアプローチに対する標準的なアプローチは、介入を最小限に抑え、自律性を重視した強化学習のための新しいアルゴリズムの開発の必要性を浮き彫りにしている。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Zipfian environments for Reinforcement Learning [19.309119596790563]
シュキュード体験からしっかり学習することは、シミュレーションや研究室を超えてDeep RL手法を適用する上で重要な課題であることを示す。
エージェントの経験がZipfian(離散電力法則)分布によって異なる3つの相補的なRL環境を開発する。
この結果から, シュキュード・エクスペリエンスからの学習が, シミュレーションや実験室を超えて深部RL法を適用する上で重要な課題であることが示唆された。
論文 参考訳(メタデータ) (2022-03-15T19:59:10Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。