論文の概要: A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2205.05212v1
- Date: Wed, 11 May 2022 00:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 08:55:56.741980
- Title: A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning
- Title(参考訳): 非正規強化学習に対する状態分布マッチングアプローチ
- Authors: Archit Sharma, Rehaan Ahmad, Chelsea Finn
- Abstract要約: 現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 61.406020873047794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) provides a framework for learning through
trial and error, translating RL algorithms into the real world has remained
challenging. A major hurdle to real-world application arises from the
development of algorithms in an episodic setting where the environment is reset
after every trial, in contrast with the continual and non-episodic nature of
the real-world encountered by embodied agents such as humans and robots. Prior
works have considered an alternating approach where a forward policy learns to
solve the task and the backward policy learns to reset the environment, but
what initial state distribution should the backward policy reset the agent to?
Assuming access to a few demonstrations, we propose a new method, MEDAL, that
trains the backward policy to match the state distribution in the provided
demonstrations. This keeps the agent close to the task-relevant states,
allowing for a mix of easy and difficult starting states for the forward
policy. Our experiments show that MEDAL matches or outperforms prior methods on
three sparse-reward continuous control tasks from the EARL benchmark, with 40%
gains on the hardest task, while making fewer assumptions than prior works.
- Abstract(参考訳): 強化学習(RL)は試行錯誤による学習の枠組みを提供するが、RLアルゴリズムを現実世界に翻訳することは依然として困難である。
現実の応用への大きなハードルは、人間やロボットのような具体化されたエージェントが遭遇する現実世界の連続的および非エポゾディックな性質とは対照的に、試行錯誤後に環境がリセットされるエピソード的な環境におけるアルゴリズムの開発から生じる。
以前の作業では、フォワードポリシーがタスクを解決し、後方ポリシーが環境をリセットする、という交互なアプローチが検討されてきたが、下位ポリシーがエージェントをリセットすべき初期状態分布は何か?
そこで本研究では,いくつかの実演を想定して,提示された実演における状態分布に合致する後方方針を訓練する新しいメダリストであるメダリストを提案する。
これによりエージェントはタスク関連状態に近い状態となり、フォワードポリシーのために簡単で難しい開始状態が混在する。
実験の結果,MEDAL は EARL ベンチマークから得られた3つの疎逆連続制御タスクにおいて,従来の手法と一致し,性能に優れることがわかった。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。