論文の概要、ライセンス

# (参考訳) 非正規強化学習に対する状態分布マッチングアプローチ [全文訳有]

A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning ( http://arxiv.org/abs/2205.05212v1 )

ライセンス: CC BY 4.0
Archit Sharma, Rehaan Ahmad, Chelsea Finn(参考訳) 強化学習(RL)は試行錯誤による学習の枠組みを提供するが、RLアルゴリズムを現実世界に翻訳することは依然として困難である。 現実の応用への大きなハードルは、人間やロボットのような具体化されたエージェントが遭遇する現実世界の連続的および非エポゾディックな性質とは対照的に、試行錯誤後に環境がリセットされるエピソード的な環境におけるアルゴリズムの開発から生じる。 以前の作業では、フォワードポリシーがタスクを解決し、後方ポリシーが環境をリセットする、という交互なアプローチが検討されてきたが、下位ポリシーがエージェントをリセットすべき初期状態分布は何か? そこで本研究では,いくつかの実演を想定して,提示された実演における状態分布に合致する後方方針を訓練する新しいメダリストであるメダリストを提案する。 これによりエージェントはタスク関連状態に近い状態となり、フォワードポリシーのために簡単で難しい開始状態が混在する。 実験の結果,MEDAL は EARL ベンチマークから得られた3つの疎逆連続制御タスクにおいて,従来の手法と一致し,性能に優れることがわかった。

While reinforcement learning (RL) provides a framework for learning through trial and error, translating RL algorithms into the real world has remained challenging. A major hurdle to real-world application arises from the development of algorithms in an episodic setting where the environment is reset after every trial, in contrast with the continual and non-episodic nature of the real-world encountered by embodied agents such as humans and robots. Prior works have considered an alternating approach where a forward policy learns to solve the task and the backward policy learns to reset the environment, but what initial state distribution should the backward policy reset the agent to? Assuming access to a few demonstrations, we propose a new method, MEDAL, that trains the backward policy to match the state distribution in the provided demonstrations. This keeps the agent close to the task-relevant states, allowing for a mix of easy and difficult starting states for the forward policy. Our experiments show that MEDAL matches or outperforms prior methods on three sparse-reward continuous control tasks from the EARL benchmark, with 40% gains on the hardest task, while making fewer assumptions than prior works.
公開日: Wed, 11 May 2022 00:06:29 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement 非エポゾディック強化に対する状態分布マッチング手法 0.61
Learning Archit Sharma * 1 Rehaan Ahmad * 1 Chelsea Finn 1 学習 Archit Sharma * 1 Rehaan Ahmad * 1 Chelsea Finn 1 0.59
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] G L . s c [ ] G L。 sc [ 0.47
1 v 2 1 2 5 0 1 v 2 1 2 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract While reinforcement learning (RL) provides a framework for learning through trial and error, translating RL algorithms into the real world has remained challenging. 概要 強化学習(RL)は試行錯誤による学習の枠組みを提供するが、RLアルゴリズムを現実世界に翻訳することは依然として困難である。 0.60
A major hurdle to realworld application arises from the development of algorithms in an episodic setting where the environment is reset after every trial, in contrast with the continual and non-episodic nature of the realworld encountered by embodied agents such as humans and robots. 現実の世界に適用する大きな障害は、人間やロボットのような身体的なエージェントが遭遇する現実世界の連続的かつ非認識的な性質とは対照的に、試行ごとに環境がリセットされるエピソディックな環境でのアルゴリズムの開発である。 0.72
Enabling agents to learn behaviors autonomously in such non-episodic environments requires that the agent to be able to conduct its own trials. エージェントがこのような非経済環境で自律的に行動を学ぶためには、エージェントが独自の試行を行う必要がある。 0.61
Prior works have considered an alternating approach where a forward policy learns to solve the task and the backward policy learns to reset the environment, but what initial state distribution should the backward policy reset the agent to? 以前の作業では、フォワードポリシーがタスクを解決し、後方ポリシーが環境をリセットする、という交互なアプローチが検討されてきたが、下位ポリシーがエージェントをリセットすべき初期状態分布は何か?
訳抜け防止モード: 先行研究は、フォワードポリシーがその課題を解決するために学習する交互アプローチを検討してきた 後ろ向きの政策は環境をリセットすることを学びます しかし 後戻り政策は エージェントをリセットすべきでしょうか?
0.78
Assuming access to a few demonstrations, we propose a new method, MEDAL, that trains the backward policy to match the state distribution in the provided demonstrations. そこで本研究では,いくつかの実演を想定して,提示された実演における状態分布に合致する後方方針を訓練する新しいメダリストであるメダリストを提案する。
訳抜け防止モード: いくつかのデモへのアクセスを仮定する。 我々はMEDALという新しい手法を提案する。 提供されたデモで 国家の分布に合わせて 後方政策を訓練する
0.63
This keeps the agent close to the task-relevant states, allowing for a mix of easy and difficult starting states for the forward policy. これによりエージェントはタスク関連状態に近い状態となり、フォワードポリシーのために簡単で難しい開始状態が混在する。 0.68
Our experiments show that MEDAL matches or outperforms prior methods on three sparse-reward continuous control tasks from the EARL benchmark, with 40% gains on the hardest task, while making fewer assumptions than prior works. 実験の結果,MEDAL は EARL ベンチマークから得られた3つの疎逆連続制御タスクにおいて,従来の手法と一致し,性能に優れることがわかった。 0.60
Code and videos are at: https://sites.google .com/view/medal-arl/ home コードとビデオは以下の通り。 0.42
1. Introduction A cornerstone of human and animal intelligence is the ability to learn autonomously through trial and error. 1. 序論 人間と動物の知性の基礎は、試行錯誤を通じて自律的に学ぶ能力である。 0.80
To that extent, reinforcement learning (RL) presents a natural framework to develop learning algorithms for embodied agents. その意味で、強化学習(RL)は、エンボディエージェントのための学習アルゴリズムを開発するための自然な枠組みを提供する。 0.61
Unfortu- *Equal contribution 1Stanford University, CA, USA. 不運 ※コントリビューション1Stanford University, CA, USA等。 0.46
Correspondence to: Archit Sharma <architsh@stanford.ed u>, Rehaan Ahmad <rehaan@stanford.edu& gt;. Archit Sharma <architsh@stanford.ed u>, Rehaan Ahmad <rehaan@stanford.edu& gt; 0.37
Preprint. Copyright 2022 by the author(s). プレプリント。 著作者による著作権2022。 0.60
Figure 1. An overview of our proposed method MEDAL (right) contrasting it with forward-backward RL (Han et al , 2015; Eysenbach et al , 2017) (left). 図1に示す。 提案手法の概観 (右) は, 前向きのRL (Han et al , 2015; Eysenbach et al , 2017) と対比する。 0.61
MEDAL trains a backward policy πb to pull the agent back to the state distribution defined by the demonstrations, enabling the forward policy πf to the learn the task efficiently in contrast to FBRL that retrieves the agent to the initial state distribution before every trial of πf . MEDALは、エージェントを実証によって定義された状態分布に引き戻すために後方ポリシーπbを訓練し、前ポリシーπfが、πf の全ての試行の前にエージェントを初期状態分布に戻す FBRL とは対照的に、タスクを効率的に学習できるようにする。
訳抜け防止モード: MEDALは後方方針πbを訓練する エージェントをデモによって定義された状態分布に戻す フォワードポリシーπfがFBRLと対照的に効率的にタスクを学習できるようにする πfの全ての試行の前に、エージェントを初期状態分布に戻す。
0.78
nately, the predominant emphasis on episodic learning represents a departure from the continual non-episodic nature of the real-world, which presents multiple technical challenges. 本質的に、エピソジック学習に重点を置くことは、複数の技術的課題を呈する現実世界の継続的な非エピソジックな性質からの脱却を表している。 0.51
First, episodic training undermines the autonomy of the learning agent by requiring repeated extrinsic interventions to reset the environment after every trial, which can be both time-consuming and expensive as these interventions may have to be conducted by a human. 第一に、エピソディックトレーニングは、試験のたびに環境をリセットするために、反復的な外在的介入を要求することによって、学習エージェントの自律性を損なう。
訳抜け防止モード: 第1に、エピソディクス訓練は、試行ごとに環境をリセットするために、反復的な介入を必要とすることにより、学習エージェントの自律性を損なう。 これらの介入は人間が行う必要があるため、時間と費用の両方がかかる可能性がある。
0.54
Second, episodic training from narrow initial state distributions can lead to less robust policies that are reliant on environment resets to recover; e g Sharma et al (2022) show that policies learned in episodic settings with narrow initial state distributions are more sensitive to perturbations than those trained in non-episodic settings. e g Sharma et al (2022) は、狭い初期状態分布で学習されたポリシーは、非エピソジックな設定で訓練されたポリシーよりも摂動に敏感であることを示した。 0.38
Prior works have found that conventional RL algorithms substantially depreciate in performance when applied in nonepisodic settings (Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022). 従来のRLアルゴリズムは、非韻律的設定(Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022)に適用すると、性能が著しく低下することがわかった。 0.80
Why do such algorithms struggle to learn in non-episodic, autonomous RL (ARL) settings? このようなアルゴリズムは、なぜ非正規自律rl(arl)環境で学ぶのに苦労するのか? 0.62
Resetting the environment after every single episode allows for natural repetition: the agent can repeatedly practice the task under a narrow set of initial conditions to incrementally improve the policy. エージェントは、ポリシーを段階的に改善するために、限られた初期条件の下で繰り返しタスクを実行できる。
訳抜け防止モード: すべてのエピソードが自然に繰り返すことを許可した後に環境をリセットする :エージェントは、ポリシーを段階的に改善するために、限られた初期条件の下で繰り返しタスクを実践することができる。
0.64
Critically, algorithms developed for episodic learning do not have to learn how to reach these initial conditions in the first place. 批判的に、エピソディクス学習のために開発されたアルゴリズムは、そもそもこれらの初期条件に到達する方法を学ぶ必要がない。 0.66
Thus, the main additional それゆえ 主な追加は 0.72
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
challenge in non-episodic, autonomous RL settings is to enable the repetitive practice that is necessary to learn an adept policy. 非エポゾディックで自律的なRL設定の課題は、適応的なポリシーを学ぶのに必要な反復的な実践を可能にすることである。 0.58
For example, an autonomous robot that is practicing how to close a door will also need to learn how to open a door. 例えば、ドアを閉める方法を練習している自律ロボットは、ドアの開け方を学ぶ必要がある。 0.69
Several recent works learn a backward policy to enable the main forward policy to practice the task: for example, Han et al (2015); Eysenbach et al (2017) propose a backward policy that learns to match the initial state distribution. いくつかの最近の研究は、メインフォワードポリシーがタスクを実践できるようにするために、後方ポリシーを学習している。例えば、Han et al (2015)、Eysenbach et al (2017) は、初期状態の分布に合わせて学習する後方ポリシーを提案する。
訳抜け防止モード: 最近のいくつかの研究は、後進政策を学ぶ メインの政策でその任務を遂行する 例えば、han et al (2015) です。 eysenbach et al (2017) は、初期状態分布に適合するように学習する後進政策を提案する。
0.78
However, unlike the episodic setting, the agent can practice the task from any initial state, and not just the narrow initial state distribution that is usually provided by resets. しかし、エピソード設定とは異なり、エージェントは任意の初期状態からタスクを実行することができ、通常リセットによって提供される狭い初期状態分布だけではない。 0.73
Can the backward policy create starting conditions that enable the forward policy to improve efficiently? 後方政策は、前進政策を効率的に改善できるスタート条件を創出できるのか? 0.83
It could be useful for the agent to try the task both from “easy” states that are close to the goal and harder states that are representative of the starting conditions at evaluation. エージェントは、目標に近い“簡単”な状態と評価の開始条件を表す難しい状態の両方からタスクを試すのに役立つかもしれません。 0.65
Easier and harder initial conditions can be seen as a curriculum that simplifies exploration. 簡単で難しい初期条件は、探索を簡単にするカリキュラムと見なすことができる。 0.68
Kakade & Langford (2002) provide a theoretical discussion on how the initial state distribution affects the performance of the learned policy. kakade & langford (2002) は、初期状態分布が学習政策のパフォーマンスにどのように影響するかに関する理論的議論を行っている。 0.70
One of the results show that the closer the starting state distribution is to the state distribution of the optimal policy ρ∗, the faster the policy moves toward the optimal policy π∗. 結果の1つは、開始状態の分布が最適政策 ρ∗ の状態分布に近づくほど、政策が最適政策 π∗ に向かって移動する速度が速くなることを示している。 0.80
While an oracle access to ρ∗ is rarely available, we often have access to a modest set of demonstrations. ρ∗へのオラクルアクセスはめったにないが、デモの控えめなセットにアクセスできることが多い。 0.59
In this work, we aim to improve autonomous RL by learning a backward policy that matches the starting state distribution to the state distribution observed in the demonstrations. 本研究では,実演で観察された状態分布と開始状態分布を一致させる下位方針を学習することにより,自律的なrlの改善を目指す。 0.69
This enables the agent to practice the task from a variety of initial states, including some that are possibly easier to explore from. これによりエージェントはさまざまな初期状態からタスクを実行できるようになる。
訳抜け防止モード: これによりエージェントは、様々な初期状態からタスクを実行することができる。 より簡単に探索できるものも 含まれています
0.68
An intuitive representation of the algorithm is shown in Figure 1. このアルゴリズムの直感的な表現は図1に示されます。 0.72
The primary contribution of our work is an autonomous RL algorithm Matching Expert Distributions for Autonomous Learning (MEDAL), which learns a backward policy that matches the state distribution of a small set of demonstrations, in conjunction with a forward policy that optimizes the task reward. 私たちの研究の主な貢献は、自律学習のためのエキスパート分布(medal:expert distributions for autonomous learning)にマッチする自律的rlアルゴリズムです。
訳抜け防止モード: 私たちの研究の主な貢献は、自律的なRLアルゴリズムであるMEDAL(Matching Expert Distributions for Autonomous Learning)である。 それは、小さなデモの集合の状態分布と一致する後方ポリシーを学ぶ。 タスク報酬を最適化する フォワードポリシーと共に
0.72
We use a classification based approach that implicitly minimizes the distance between the state distribution of the backward policy and the state distribution in the demonstrations without requiring the density under either distribution. いずれの分布においても密度を必要とせず,逆方針の状態分布とデモにおける状態分布との間の距離を暗黙的に最小化する分類に基づくアプローチを用いる。 0.80
In Section 5, we empirically analyze the performance of MEDAL on the Environments for Autonomous RL (EARL) benchmark (Sharma et al , 2022). 第5節では、自動RL(EARL)ベンチマーク(Sharma et al , 2022)におけるMEDALの性能を実証的に分析した。 0.67
We find that MEDAL matches or outperforms competitive baselines in all of the sparse-reward environments, with a more than a 40% gain in success rate on the hardest task where all other comparisons fail completely. MEDALは、全てのスパース・リワード環境において、競合ベースラインに適合し、また、他の全ての比較が完全に失敗する最も困難なタスクにおいて、40%以上の成功率を得る。 0.69
Our ablations additionally indicate the importance of matching the state distribution in the demonstrations, providing additional empirical support for the hypothesis that the expert state distribution constitutes a good starting state distribution for learning a task. また,実証実験における状態分布の一致の重要性も示し,専門家状態分布がタスクを学習するためのよい開始状態分布を構成するという仮説を実証的に支持する。 0.84
2. Related Work Autonomous RL. 2. 関連業務自律RL 0.58
Using additional policies to enable autonomous learning goes back to the works of (Rivest & Schapire, 1993) in context of finite state automaton, also referred to as “homing strategies” in (Even-Dar et al , 2005) in context of POMDPs. 自律学習を可能にするための追加ポリシーの使用は、有限状態オートマトン(英語版)の文脈における(rivest & schapire, 1993)の仕事に戻り、pomdpsの文脈では(even-dar et al , 2005)「ホーミング戦略」とも呼ばれる。 0.69
More recently, in context of continuous control, several works propose autonomous RL methods targeting different starting distributions to learn from: Han et al (2015); Eysenbach et al (2017) match the initial state distribution, Zhu et al (2020a) leverage state-novelty (Burda et al , 2018) to create new starting conditions for every trial, and Sharma et al (2021) create a curriculum of starting states based on the performance of the forward policy to accelerate the learning. より最近では、継続的制御の文脈において、さまざまな開始分布を対象とする自律的なRL手法が提案されている。 Han et al (2015)、Eysenbach et al (2017)、Zhu et al (2020a)、ステートノベルティ(Burda et al , 2018)、Sharma et al (2021)、学習を加速するために前方ポリシーのパフォーマンスに基づいて開始状態のカリキュラムを作成する。 0.65
In addition, (Xu et al , 2020; Lu et al , 2020) leverage ideas from unsupervised skill discovery (Gregor et al , 2016; Eysenbach et al , 2018; Sharma et al , 2019; Hazan et al , 2019; Campos et al , 2020), with the former using it to create an adversarial initial state distribution and the latter to tackle non-episodic lifelong learning with a non-stationary task-distribution. さらに(Xu et al , 2020; Lu et al , 2020)は、教師なしスキル発見(Gregor et al , 2016; Eysenbach et al , 2018; Sharma et al , 2019; Hazan et al , 2019; Campos et al , 2020)のアイデアを活用する。
訳抜け防止モード: さらに(Xu et al, 2020; Lu et al, 2020)は、教師なしスキル発見(Gregor et al, 2016; Eysenbach et al)のアイデアを活用している。 2018年、Sharma et al, 2019年、Hazan et al, 2019年、Campos et al, 2020年) 前者はそれを使って 敵の初期状態の分布を作り そして後者は、非定常的なタスクによる非叙事的な生涯学習に取り組む。
0.75
Our work proposes a novel algorithm MEDAL that, unlike these prior works, opts to match the starting distribution to the state distribution of demonstrations. 我々の研究は、これらの先行研究とは異なり、開始分布とデモンストレーションの状態分布とを一致させる新しいアルゴリズムMEDALを提案する。 0.67
Value-accelerated Persistent RL (VaPRL) (Sharma et al , 2021) also considers the problem of autonomous RL with a few initial demonstrations. 価値加速型永続RL (VaPRL) (Sharma et al , 2021) もまた、いくつかの最初のデモンストレーションで自律RLの問題を考える。 0.71
Unlike VaPRL, our algorithm does not rely on relabeling transitions with new goals (Andrychowicz et al , 2017), and thus does not require access to the functional form of the reward function, eliminating the need for additional hyperparameters that require task-specific tuning. vaprlとは異なり、このアルゴリズムは新たな目標(andrychowicz et al , 2017)によるrelabeling遷移に依存しないため、報酬関数の機能形式へのアクセスは不要であり、タスク固有のチューニングを必要とする追加のハイパーパラメータは不要である。 0.77
A simple and taskagnostic ARL method would accelerate the development of autonomous robotic systems, the benefits of such autonomy being demonstrated by several recent works (Chatzilygeroudis et al , 2018; Gupta et al , 2021; Smith et al , 2021; Ha et al , 2020; Bloesch et al , 2022). 単純でタスクに依存しないarl法は自律的なロボットシステムの開発を加速し、このような自律性の利点を最近のいくつかの研究で実証している(chatzilygeroudis et al , 2018; gupta et al , 2021; smith et al , 2021; ha et al , 2020; bloesch et al , 2022)。 0.75
Distribution Matching in RL. RLにおける分布マッチング 0.91
Critical to our method is matching the state distribution of the demonstrations. 我々の方法にとって重要なのは、デモの状態分布の一致である。 0.56
Such a distribution matching perspective is often employed in inverse RL (Ng et al , 2000; Ziebart et al , 2008; 2010; Finn et al , 2016) and imitation learning (Ghasemipour et al , 2020; Argall et al , 2009) or to encourage efficient exploration (Lee et al , 2019). このような分布マッチングの観点は、逆 RL (Ng et al , 2000; Ziebart et al , 2008; 2010; Finn et al , 2016) や模倣学習 (Ghasemipour et al , 2020; Argall et al , 2009) や効率的な探索を促進するためにしばしば用いられる。
訳抜け防止モード: そのような分布マッチングの観点は、しばしば逆 RL (Ng et al, 2000 ; Ziebart et al,) で用いられる。 2008年; 2010年; Finn et al, 2016年)と模倣学習(Ghasemipour et al, 2020 ; Argall et al, 2009 ) あるいは効率的な探査を促進する (Lee et al, 2019 )。
0.89
More recently, several works have leveraged implicit distribution matching by posing a classification problem, pioneered in Goodfellow et al (2014), to imitate demonstrations (Ho & Ermon, 2016; Baram et al , 2017; Kostrikov et al , 2018; Rafailov et al , 2021), to imitate sequences of observations (Torabi et al , 2019; Zhu et al , 2020b), or to learn reward functions for goal-reaching (Fu et al , 2018; Singh et al , 2019). 最近では、Goodfellow et al (2014)で先駆的な分類問題(Ho & Ermon, 2016; Baram et al , 2017; Kostrikov et al , 2018; Rafailov et al , 2021)を模倣して、観測のシーケンス(Torabi et al , 2019; Zhu et al , 2020b)を模倣したり、ゴール獲得のための報酬関数(Fu et al , 2018; Singh et al , 2019)を学ぶために、暗黙の分布マッチングを活用している。 0.79
Our work employs a similar discriminator-based approach to encourage the state distribution induced by the policy to match that of the demonstrations. 我々の研究は、同様の判別器に基づくアプローチを採用し、デモに合致するポリシーによって引き起こされる状態分布を奨励する。
訳抜け防止モード: 我々の研究は類似の差別的アプローチを採用している 政策によって引き起こされる 国家の分配を奨励する
0.71
Importantly, our work focuses on creating an initial state distribution that the forward policy can learn 重要なことは、フォワードポリシーが学習できる初期状態分布の作成に焦点を当てています。
訳抜け防止モード: 重要なことは、我々の仕事は フォワードポリシーが学べる 初期状態の分布を作り
0.78
英語(論文から抽出)日本語訳スコア
efficiently from, as opposed to these prior works that are designed for the episodic RL setting. エピソディックrl設定用に設計されたこれら以前の作品とは対照的に、効率が良い。 0.56
As the experiments in Section 5.2 and Section 5.3 show, na¨ıve extensions of these methods to non-episodic settings don’t fare well. セクション5.2とセクション5.3の実験が示すように、これらの方法の非正規設定への拡張はうまくいきません。 0.75
Accelerating RL using Demonstrations. デモによるRLの高速化。 0.55
There is rich literature on using demonstrations to speed up reinforcement learning, especially for sparse reward problems. 強化学習をスピードアップするためにデモを使うことには豊富な文献がある。
訳抜け防止モード: 豊かな文学があります 強化学習のスピードアップに デモを使ってる 特に まばらな報酬問題にね
0.64
Prior works have considering shaping rewards using demonstrations (Brys et al , 2015), pre-training the policy (Rajeswaran et al , 2017), using behavior cloning loss as a regularizer for policy gradients (Rajeswaran et al , 2017) and Q-learning (Nair et al , 2018), and initializing the replay buffer (Nair et al , 2018; Vecerik et al , 2017; Hester et al , 2018). 以前の研究では、デモ(brys et al , 2015)、ポリシーの事前トレーニング(rajeswaran et al , 2017)、ポリシー勾配の正規化(rajeswaran et al , 2017)、q-learning(nair et al , 2018)、リプレイバッファの初期化(nair et al , 2018; vecerik et al , 2017; hester et al , 2018)による報酬形成を検討している。 0.69
MEDAL leverages demonstrations to accelerate nonepisodic reinforcement learning by utilizing demo distribution to create initial conditions for the forward policy. medalは、デモ分布を利用して前方方針の初期条件を作成することで、nonepisodic reinforcement learningを加速するためにデモを利用する。 0.52
The techniques proposed in these prior works are complimentary to our proposal, and can be leveraged for non-episodic RL in general as well. これらの先行研究で提案する手法は,提案手法を補完するものであり,一般の非標準rlにも活用できる。 0.68
Indeed, for all methods in our experiments, the replay buffer is initialized with demonstrations. 実際、実験中のすべてのメソッドで、リプレイバッファはデモで初期化されます。 0.71
3. Preliminaries Autonomous Reinforcement Learning. 3.予備的な自律強化学習 0.80
We use the ARL framework for non-episodic learning defined in Sharma et al (2022), which we briefly summarize here. sharma et al (2022) で定義された非正規学習にarlフレームワークを使用し、ここで簡単に要約する。 0.66
Consider a Markov decision process M ≡ (S,A, p, r, ρ0), where S denotes the state space, A denotes the action space, p : S × A × S (cid:55)→ R≥0 denotes the transition dynamics, r : S × A (cid:55)→ R denotes the reward function and ρ0 denotes the initial state distribution. ここで s は状態空間、a は作用空間、p : s × a × s (cid:55)→ r≥0 は遷移ダイナミクス、r : s × a (cid:55)→ r は報酬関数、ρ0 は初期状態分布を表す。
訳抜け防止モード: マルコフ決定過程 M > (S, A, A) を考える。 p, r, ρ0 ) ここで S は状態空間を表す。 A はアクション空間を表す。 p : S × A × S ( cid:55)→ R≥0 は遷移力学を表す。 r : S×A cid:55)→ R は報酬関数を表す ρ0 は初期状態分布を表す。
0.86
The learning algorithm A is defined as A : {si, ai, si+1, ri}t i=0 (cid:55)→ {at, πt}, which maps the transitions collected in the environment until time t to an action at and its best guess at the optimal policy πt : S × A (cid:55)→ R≥0. 学習アルゴリズムaは、a: {si, ai, si+1, ri}t i=0 (cid:55)→ {at, πt} と定義され、t までの環境で収集された遷移を作用 at にマッピングし、最適な政策 πt : s × a (cid:55)→ r≥0 において最適な推測を行う。
訳抜け防止モード: 学習アルゴリズム a は a : si, si として定義される。 ai, si+1, ri}t i=0 (cid:55)→ { at, πt }, 時間tまで 環境に集められた遷移を 最適政策 πt : s × a ( cid:55)→ r≥0 における最善の推測である。
0.87
First, the initial state is sampled exactly once (s0 ∼ ρ0) at the beginning of the interaction and the learning algorithm interacts with the environment through the actions at till t → ∞. まず、初期状態は相互作用の開始時に正確に1回(s0 > ρ0)サンプリングされ、学習アルゴリズムは t → ∞ までの作用を通して環境と相互作用する。 0.82
This is the key distinction from an episodic RL setting where the environment resets to a state from the initial state distribution after a few steps. これは、環境が数ステップ後に初期状態分布から状態にリセットされるエピソードRL設定との大きな違いである。 0.69
Second, the action taken in the environment does not necessarily come from πt, for example, a backward policy πb may generate the action taken in the environment. 第二に、環境中の作用は必ずしも πt からではなく、例えば、逆方針 πb は環境中での作用を発生させる。 0.69
ARL defines two metrics: Continuing Policy Evaluation measures the reward accumulated by A over the course of training, defined as C(A) = limh→∞ 1 t=0 r(st, at) and Deployed Policy Evaluation metric measures how quickly an algorithm improves the output policy πt at the task defined by the reward function r, defined as: c(a) = limh→∞ 1 t=0 r(st, at)と定義され、デプロイされたポリシー評価指標は、アルゴリズムが報酬関数rで定義されたタスクにおいて、出力ポリシーπtをいかに迅速に改善するかを測定する。
訳抜け防止モード: ARLは2つの指標を定義している。 継続的な政策評価は、トレーニングの過程でAが蓄積した報酬を測定する。 C(A ) = limh→∞ 1 t=0 r(st, at ) and Deployed Policy Evaluation Metricsは、アルゴリズムが報酬関数 r で定義されたタスクにおける出力ポリシ πt をいかに早く改善するかを測定する。
0.77
E(cid:104)(cid:80)h E(cid:104)(cid:80)h 0.41
(cid:105) h (定員105名) へっ 0.52
st+1 ∼ p(· | st, at) and π∗ ∈ arg maxπ J(π). st+1 > p(· | st, at) および π∗ ∈ arg maxπ J(π) である。 0.85
The goal for an algorithm A is to minimize D(A), that is to bring J(πt) close to J(π∗) in the least number of samples possible. アルゴリズム A の目標は D(A) を最小化することであり、J(πt) をできるだけ多くのサンプルに J(π∗) に近づけることである。 0.80
Intuitively, minimizing D(A) corresponds to maximizing the area under the curve for J(πt) versus t. 直観的には、D(A) の最小化は J(πt) 対 t の曲線の下での面積の最大化に対応する。 0.63
C(A) corresponds to the more conventional average-reward reinforcement learning. c(a) はより一般的な平均-回帰強化学習に対応する。 0.68
While algorithms are able to accumulate large rewards during training, they do not necessarily recover the optimal policy in non-episodic settings (Zhu et al , 2020a; Co-Reyes et al , 2020; Sharma et al , 2022). アルゴリズムはトレーニング中に大きな報酬を蓄積できるが、非エポゾディックな設定(Zhu et al , 2020a; Co-Reyes et al , 2020; Sharma et al , 2022)では必ずしも最適なポリシーを回復しない。 0.85
In response, Sharma et al (2022) introduce D(A) to explicitly encourage algorithms to learn task-solving behaviors and not just accumulate reward through training. それに応えて、sharma et al (2022)はd(a)を導入して、トレーニングを通じて報酬を蓄積するだけでなく、タスク解決行動を学ぶアルゴリズムを明示的に推奨している。 0.57
Imitation Learning via Distribution Matching. 分布マッチングによる模倣学習。 0.78
Generative Adversarial Networks (Goodfellow, 2016) pioneered implicit distribution matching for distributions where likelihood cannot be computed explicitly. Generative Adversarial Networks (Goodfellow, 2016)は、確率を明示的に計算できない分布に対する暗黙の分布マッチングを開拓した。 0.76
Given a dataset of samples {xi}N i=1, where xi ∼ p∗(·) for some target distribution p∗ over the data space X , generative distribution pθ(·) can be learned through the following minimax optimization: サンプル {xi}n i=1 のデータセットが与えられると、データ空間 x 上のある対象分布 p∗ に対して xi は p∗(·) であり、生成分布 pθ(·) は以下のミニマックス最適化によって得られる。 0.83
D max Ex∼p∗ [log D(x)] + Ex∼pθ [log(1 − D(x))] (2) min pθ where D : X (cid:55)→ [0, 1] is discriminator solving a binary classification problem. D マックス ここで D : X (cid:55)→ [0, 1] は二項分類問題を解く判別器である。
訳抜け防止モード: D マックス ex-p∗ [ log d(x ) ] + ex-pθ [ log(1 − d(x ) ) ] ( 2 ) min pθ である。 d : x ( cid:55)→ [ 0, 1 ] は二分分類問題を解く判別子である。
0.62
This can be shown to minimize the Jensen-Shannon divergence, that is DJS(pθ || p∗) (Goodfellow et al , 2014; Nowozin et al , 2016) by observing that the Bayes-optimal classifier satisfies D∗(x) = p∗(x)+pθ(x) (assuming that prior probability of true data and fake data is balanced). これはdjs(pθ || p∗) (goodfellow et al , 2014; nowozin et al , 2016) であるjensen-shannonの分岐を最小化するために、ベイズ最適分類器は d∗(x) = p∗(x)+pθ(x) を満たす(真のデータと偽データの前の確率が均衡していると仮定して)。 0.85
Because we do not require an explicit density under the generative distribution and only require the ability to sample the distribution, this allows construction of imitation learning methods such as GAIL (Ho & Ermon, 2016) which minimizes DJS(ρπ(s, a) || ρ∗(s, a)), where the policy π is rolled out in the environment starting from initial state distribution ρ0 to generate samples from the state-action distribution ρπ(s, a) and ρ∗(s, a) is the target state-action distribution of the demonstrations. Because we do not require an explicit density under the generative distribution and only require the ability to sample the distribution, this allows construction of imitation learning methods such as GAIL (Ho & Ermon, 2016) which minimizes DJS(ρπ(s, a) || ρ∗(s, a)), where the policy π is rolled out in the environment starting from initial state distribution ρ0 to generate samples from the state-action distribution ρπ(s, a) and ρ∗(s, a) is the target state-action distribution of the demonstrations.
訳抜け防止モード: 生成分布の下では明示的な密度を必要としないので DJS(ρπ(s))を最小化するGAIL(Ho & Ermon, 2016)のような模倣学習手法を構築することができる。 a) || ρ∗(s, a ) ) 初期状態分布 ρ0 から始まる環境において、ポリシー π がロールアウトされる。 州からサンプルを採取し - 作用分布 ρπ(s, a ) と ρ∗(s, a ) が対象状態である。
0.80
p∗(x) 4. Matching Expert Distributions for Autonomous Learning (MEDAL) p∗(x) 4.自律学習(medal)のためのエキスパート分布のマッチング 0.62
Several prior works demonstrate the ineffectiveness of standard RL methods in non-episodic settings (Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022). いくつかの先行研究は、非経済的な環境での標準RL法の有効性を実証している(Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022)。 0.66
Adding noise to actions, for example -greedy in DQN (Mnih et al , 2015) or Gaussian noise in SAC (Haarnoja et al , 2018)), can be sufficient for exploration in episodic setting where every trial starts from a narrow initial state distribution. DQN (Mnih et al , 2015) や SAC (Haarnoja et al , 2018) のガウスノイズのような行動にノイズを加えることは、全ての試行が狭い初期状態分布から始まるエピソード環境での探索に十分である。 0.71
However, such an approach becomes ineffective in non-episodic settings because the same policy is expected to both solve the task and しかし、同じ方針が課題の解決と解決の両方を期待されているため、非エポゾディックな設定ではそのようなアプローチは効果がない。 0.52
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
where J(π) = E(cid:104)(cid:80)∞ ここで j(π) = e(cid:104)(cid:80)∞ 0.79
(cid:105) j=0 γjr(sj, aj) (定員105名) j=0 γjr(sj, aj) 0.47
, s0 ∼ ρ0, at ∼ π(· | st), π(· | st) において s0 を ρ0 とする。 0.86
D(A) = J(π∗) − J(πt), D(A) = J(π∗) − J(πt) 0.42
(1) ∞(cid:88) (1) ∞(cid:88) 0.42
t=0 t=0 0.29
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
be sufficiently exploratory. 十分に探索的になる。 0.48
As a result, a common solution in non-episodic autonomous RL settings is to learn another policy in addition to the forward policy πf that solves the task (Han et al , 2015; Eysenbach et al , 2017; Zhu et al , 2020a): a backward policy πb that targets a set of states to explore solving the task from. 結果として、非正規の自律的なrl設定における一般的な解決策は、タスクを解決する前方方針 πf に加えて、別のポリシーを学ぶことである(han et al , 2015; eysenbach et al , 2017; zhu et al , 2020a): 課題を解決するための一連の州を対象とする後方政策 πb である。 0.74
More precisely, the forward policy πf learns to solve the task from a state sampled from ρb, the marginal state distribution of πb. より正確には、前方方針 πf は πb の限界状態分布である ρb からサンプリングされた状態から解くことを学ぶ。 0.68
An appropriate ρb can improve the efficiency of learning πf by creating an effective initial state distribution for it. 適切なρbは、有効な初期状態分布を作成することにより、πfの学習効率を向上させることができる。 0.66
What should the πb optimize? πbは何を最適化すべきか? 0.62
We discuss this question in Section 4.1 and a practical way to optimize the suggested objective in Section 4.2. 我々は、この質問を第4.1節で議論し、提案する目的を最適化する方法を第4.2節で論じる。 0.54
An overview of our proposed algorithm is given in Section 4.3. 本稿では,提案アルゴリズムの概要をセクション4.3で示す。 0.74
statement can be found in (Kakade & Langford, 2002, Corollary 4.5). 文はKakade & Langford, 2002, Corollary 4.5 で見ることができる。 0.69
Informally, the result states that the upper bound on the difference between the optimal performance and that of policy π is proportional to (cid:107) ρ∗(s) µ (cid:107)∞, where ρ∗ is the state distribution of the optimal policy and µ is the initial state distribution. 非公式には、最適性能と政策 π の差の上限は (cid:107) ρ∗(s) μ (cid:107)∞ に比例し、ここで ρ∗ は最適政策の状態分布、μ は初期状態分布である。 0.72
This suggests that an initial state distribution µ that is close to the optimal state distribution ρ∗ would enable efficient learning. このことは、最適状態分布 ρ∗ に近い初期状態分布 μ が効率的な学習を可能にすることを示唆する。 0.82
Intuitively, some initial states in the optimal state distribution would simplify the exploration by being closer to high reward states, which can be bootstrapped upon to learn faster from the harder initial states. 直感的には、最適状態分布におけるいくつかの初期状態は、高い報酬状態に近いことで探索を単純化し、より難しい初期状態からより速く学ぶためにブートストラップすることができる。 0.64
To empirically verify the theoretical results, we compare the learning speed of RL algorithm in the episodic setting on tabletop organization (environment details in Section 5) when starting from 理論結果を実証的に検証するために,表上組織のエピソディクス設定におけるrlアルゴリズムの学習速度を比較する(第5部環境詳細)。 0.76
(a) the standard initial state distribution, that is s0 ∼ ρ0, versus (a)標準初期状態分布、すなわち s0 を ρ0 と対する。 0.80
(b) states sampled from the stationary distribution of the optimal policy, that is s0 ∼ ρ∗(s). (b) 最適政策の定常分布からサンプリングされた状態は、s0, ρ∗(s) である。 0.76
We find in Figure 2 that the latter not only improves the learning speed, but also improves the performance by nearly 18%. 図2では、後者は学習速度を向上させるだけでなく、パフォーマンスを18%近く向上させる。 0.69
4.2. Resetting to Match the Expert State Distribution 4.2. エキスパート状態分布に適合するリセット 0.50
Figure 2. Comparison of sampling initial states s0 from the state distribution of the optimal policy ρ∗, with sampling the initial state from the default distribution ρ0 in the episodic setting. 図2。 最適なポリシー ρ∗ の状態分布からのサンプリング初期状態 s0 と、エピソディック設定におけるデフォルト分布 ρ0 からのサンプリング初期状態の比較。 0.79
The episodic return is computed by initializing the agent at s0 ∼ ρ0 in both the cases. エピソディックリターンは、どちらのケースでも s0 でエージェントを初期化することで計算される。 0.64
The former improves both the sample efficiency and the performance of the final policy. 前者は、サンプル効率と最終的なポリシーのパフォーマンスの両方を改善します。 0.74
4.1. Finding Better Starting States 4.1. より良いスタート状態を見つける 0.46
In episodic settings, πf always starts exploring from ρ0, which is the same distribution from which it will be evaluated. エピソディックな設定では、πf は常に ρ0 から探索を始め、これは評価されるのと同じ分布である。 0.68
A natural objective for πb then is to minimize the distance between ρb and ρ0. πb の自然な目的は ρb と ρ0 の間の距離を最小化することである。 0.71
And indeed, prior works have proposed this approach (Han et al , 2015; Eysenbach et al , 2017) by learning a backward controller to retrieve the initial state distribution ρ0. 実際、先行研究は、初期状態分布 ρ0 を取得するために後方コントローラを学ぶことによってこのアプローチを提案している(Han et al , 2015; Eysenbach et al , 2017)。 0.76
While the initial state distribution cannot be changed in the episodic setting, πb does not have any restriction to match ρ0 in the autonomous RL setting. 初期状態分布はエピソード設定では変化しないが、πbは自己RL設定においてρ0と一致するような制限を持たない。 0.71
Is there a better initial state distribution to efficiently learn πf from? πf を効率的に学習するより優れた初期状態分布は存在するか? 0.69
Interestingly, Kakade & Langford (2002) provide a theoretical discussion on how the initial state distribution affects the performance. 興味深いことに、kakade & langford (2002) は初期状態分布がパフォーマンスにどう影響するかの理論的な議論を行っている。 0.64
The main idea is that learning an optimal policy often requires policy improvement at states that are unlikely to be visited. 一番の考え方は、最適な政策を学ぶには、訪問できない州で政策を改善する必要があるということです。 0.64
Creating a more uniform starting state distribution can accelerate policy improvement by encouraging policy improvement at those unlikely states. より均一な開始状態の配分を作ることは、政策改善を促進することで、政策改善を促進することができる。
訳抜け防止モード: より均一な開始状態分布の作成 政策改善を促すことで 政策改善を加速させます
0.75
The formal The theoretical and empirical results in the previous section suggest that πf should attempt to solve the task from an initial state distribution that is close to ρ∗(s), thus implying that πb should try to match ρ∗(s). 形式 前節の理論的および経験的な結果は、πf が ρ∗(s) に近い初期状態分布からタスクを解こうとするべきであり、したがって πb が ρ∗(s) に一致することを示唆している。
訳抜け防止モード: 形式 前節の理論的および経験的結果は πf が試みるべきことを示唆する 課題を解決し ρ∗(s) に近い初期状態分布から したがって πb は ρ∗(s ) と一致するようにしようとするべきである。
0.64
How do we match ρb to ρ∗? ρb を ρ∗ とどのように一致させるか? 0.60
We will assume access to a small set of samples from ρ∗(s) in the form of demonstrations Df . ρ∗(s) からのサンプルの小さな集合にデモ Df の形でアクセスできると仮定する。 0.65
Because we are limited to sampling ρb and only have a fixed set of samples from ρ∗, we consider the following optimization problem: 我々は ρb のサンプリングに限られており、ρ∗ からのサンプルの固定セットしか持たないため、以下の最適化問題を考える。 0.74
Es∼ρ∗(cid:2) log C(s)(cid:3) + Es∼ρb Es ρ∗(cid:2) log C(s)(cid:3) + Es ρb 0.38
(cid:2) log(1 − C(s))(cid:3) (3) (cid:2) log(1 − C(s))(cid:3) (3) 0.49
min πb max C ミンπb マックス C 0.57
where C : S (cid:55)→ [0, 1] is a state-space classifier. C : S (cid:55)→ [0, 1] は状態空間分類器である。 0.87
This optimization is very much reminiscent of implicit distribution matching techniques used in (Goodfellow et al , 2014; Nowozin et al , 2016; Ho & Ermon, 2016; Ghasemipour et al , 2020) when only the samples are available and densities cannot be explicitly measured. この最適化は(goodfellow et al , 2014; nowozin et al , 2016; ho & ermon, 2016; ghasemipour et al , 2020) サンプルのみが利用可能で密度を明示的に測定できない場合に使用される暗黙の分散マッチング手法をよく思い出させる。 0.81
This can be interpreted as minimizing the Jensen-Shannon divergence DJS(ρb || ρ∗). これは、Jensen-Shannon発散 DJS (ρb || ρ∗) の最小化と解釈できる。 0.66
Following these prior works, C(s) solves a binary classification where s ∼ ρ∗ has a label 1 and s ∼ ρb has a label 0. これらの先行研究に続いて、C(s) は s の ρ∗ がラベル 1 を持ち、s の ρb がラベル 0 であるような二項分類を解く。 0.70
Further, πb solves a RL problem to maximize Es∼ρb [r(s, a)], where the reward function r(s, a) = − log(1 − C(s)). さらに、πb は報酬関数 r(s, a) = − log(1 − C(s)) を最大化するために RL 問題を解く。
訳抜け防止モード: さらに、πb は RL 問題を解くことで Es ρb [ r(s, a ) ] を最大化する。 ここで、報酬関数 r(s, a ) = − log(1 − C(s ) ) である。
0.82
Assuming sufficiently expressive non-parametric function classes, (ρ∗, 0.5) is a saddle point for the optimization in Equation 3. 十分表現的でない非パラメトリック関数類を仮定すると、 (ρ∗, 0.5) は方程式3の最適化のサドル点である。 0.63
Relationship to Prior Imitation Learning Methods. 先行模倣学習法との関係 0.63
GAIL (Ho & Ermon, 2016) proposes to match the stateaction distribution ρπ(s, a) to that of the expert ρ∗(s, a), that is minimize DJS(ρπ(s, a) || ρ∗(s, a)). gail (ho & ermon, 2016) は、状態作用分布 ρπ(s, a) をエキスパート ρ∗(s, a) のそれと一致させることを提案し、djs(ρπ(s, a) || ρ∗(s, a)) を最小化する。 0.87
Prior works have considered the problem of imitation learning when state-only observations are available (Torabi et al , 2019; Zhu et al , 2020b) by minimizing Df (ρπ(s, s(cid:48)) || ρ∗(s, s(cid:48))), 従来の研究では、Df(ρπ(s, s(cid:48)) || ρ∗(s, s(cid:48))を最小化することで、状態のみの観測が可能となる場合の模倣学習の問題も検討されている(Torabi et al , 2019; Zhu et al , 2020b)。 0.69
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
where f-divergence enables generalized treatment of different discrepancy measures such KL-divergence of JSdivergence used in prior work (Nowozin et al , 2016). f-divergence では、kl-divergence of jsdivergence used in prior work (nowozin et al , 2016) のような異なる不一致の処理が一般化されている。 0.54
In contrast to these works, our work proposes to minimize DJS(ρπ(s) || ρ∗(s)). これらの作品とは対照的に、本研究はdj(ρπ(s) || ρ∗(s))を最小化することを提案する。 0.58
Furthermore, state distribution matching is only used for the backward policy in our algorithm, whereas the forward policy is maximizing return, as we summarize in the next section. さらに、状態分布マッチングは、我々のアルゴリズムの後方ポリシーにのみ使用されるが、前方ポリシーは、次の節で要約したように、リターンを最大化している。 0.66
Finally, unlike prior works, the motivation for matching the state distributions is to create an effective initial state distribution for the forward policy πf . 最後に、前処理とは異なり、状態分布と一致する動機は、フォワードポリシー πf に対して効果的な初期状態分布を作成することである。
訳抜け防止モード: 最後に、以前の作品とは異なり、状態分布をマッチングする動機は フォワードポリシーπfに対して有効な初期状態分布を作成する。
0.69
Our experimental results in Section 5.2 suggest that naively extending GAIL to non-episodic settings is not effective, validating the importance of these key differences. 第5.2節における実験結果は,gailを非正規設定に拡張することは効果的ではないことを示唆し,これらの重要な違いの重要性を検証した。 0.58
Algorithm 1 Matching Expert Distributions for Autonomous Learning (MEDAL) require: forward demos Df ; optional: backward demos Db; initialize: Rf , πf (a | s), Qπf (s, a); // forward policy initialize: Rb, πb(a | s), Qπb (s, a); // backward policy initialize: C(s); // state-space discriminator Rf ← Rf ∪ Df ,Rb ← Rb ∪ Db; s ∼ ρ0; // sample initial state while not done do Algorithm 1 Matching Expert Distributions for Autonomous Learning (MEDAL) requires: forward demos Df ; optional: backward demos Db; initialize: Rf , πf (a | s), Qπf (s, a); // forward policy initialize: Rb, πb(a | s), Qπb (s, a); // backward policy initialize: C(s); // state-space discriminator Rf , Rb , Rb , Db; s , ρ0; // sample initial state while did
訳抜け防止モード: アルゴリズム 1 自律学習のための専門家分布のマッチング (MEDAL ) は : 前方デモ Df ; オプション : 後方デモ Db ; 初期化 : Rf, πf ( a | s ), Qπf ( s, a ) ; //フォワードポリシーの初期化 : Rb, πb(a | s ) Qπb ( s, a ) ; // backward policy initialize : C(s ) ; // state - space discriminator Rf . Rf . Df, Rb > Rb > Db ; s > ρ0 ; // サンプル初期状態は未完了である。
0.84
// run forward policy for a fixed number of steps or until goal is reached, otherwise run backward policy if forward then a ∼ πf (· | // 一定の数ステップのポリシーを実行し、ゴールに達するまで、そうでなければ、前へ進めばa πf (· |) となる。 0.71
s); s(cid:48) ∼ p(· | s, a), r ← r(s, a); Rf ← Rf ∪ {(s, a, s(cid:48), s); s(cid:48) の p(· | s, a), r の r(s, a); rf の rf は {(s, a, s(cid:48) である。 0.73
r)}; update πf , Qπf ; a ∼ πb(· | r)}; 更新 πf , Qπf ; a > πb(· |) 0.94
s); s(cid:48) ∼ p(· | s, a), r ← − log(1 − C(s(cid:48))); Rb ← Rb ∪ {(s, a, s(cid:48), s); s(cid:48) が p(· | s, a), r が − log(1 − c(s(cid:48))); rb が {(s, a, s(cid:48) である。 0.80
r)}; update πb, Qπb; r)}; 更新 πb, Qπb; 0.92
else end if // train disriminator every K steps if train-discriminator then その他 終了 if // train disriminator if train-discriminator 0.60
// sample a batch of positives Sp from the forward demos Df , and a batch of negatives Sn from backward replay buffer Rb Sp ∼ Df , Sn ∼ Rb; update C on Sp ∪ Sn; // 前方デモdfから正のspのバッチをサンプリングし、後方再生バッファrbsp/df/sn/sn/sn/sn/ snのバッチsnを逆再生バッファrbsp/df/sn/sn/sn/sn/ snで更新する。
訳抜け防止モード: 前行デモのDf, から肯定値のバッチをサンプルする。 そして、後方リプレイバッファRb Sp > Df からの負のバッチ Sn 。 Sn > Rb ; Update C on Sp > Sn ;
0.66
end if s ← s(cid:48); end while end if s が s(cid:48); end while 0.44
4.3. MEDAL Overview 4.3. MEDALの概要 0.54
With these components in place, we now summarize our proposed algorithm, Matching Expert Distributions for Autonomous Learning (MEDAL). これらのコンポーネントを配置することで,提案アルゴリズムを要約し,自律学習のための専門家分布(medal)とマッチングする。 0.67
We simultaneously learn the following components: a forward policy that learns 私たちは同時に、次のコンポーネントを学習します。 0.70
E[(cid:80)∞ maximizing −E[(cid:80)∞ e[(cid:80)∞ 最大化 −e[(cid:80)∞ 0.78
to solve the task and will also be used for evaluation, a backward policy that learns creates the initial state distribution for the forward policy by matching the state distribution in the demonstrations, and finally a state-space discriminator that learns to distinguish between the states visited by the backward policy and the states visited in the demonstrations. 課題を解決し、評価にも使用するために、実証における状態分布を一致させて前向き政策の初期状態分布を学習する後向き政策と、デモで訪れた状態と後向き政策によって訪れた状態とを区別する状態空間判別器とを学習する最後となる。 0.83
MEDAL assumes access to a set of forward demonstrations Df , completing the task from the initial state distribution, and optionally, a set of backward demonstrations Db undoing the task back to the initial state distribution. MEDALは、一連の前方デモDfにアクセスし、初期状態分布からタスクを完了し、オプションとして、タスクを初期状態分布に戻す一連の後方デモDbを仮定する。 0.65
The forward policy πf is trained to maximize t=0 γtr(st, at)] and the replay buffer for the forward policy is initialized using Df . フォワードポリシー πf は t=0 γtr(st, at)] を最大化するように訓練され、フォワードポリシーの再生バッファは Df を用いて初期化される。 0.66
The backward policy πb trains to minimize DJS(ρb(s) || ρ∗(s)) which translates into t=0 γt log(1 − C(st+1))] and the replay buffer for the backward policy is initialized using the backward demonstrations Db, if available. 後方方針 πb は、dj(ρb(s) || ρ∗(s)) を最小化するために訓練され、t=0 γt log(1 − c(st+1)) に変換され、後方方針のリプレイバッファは、可能であれば後方デモdbを使用して初期化される。
訳抜け防止モード: 後方方針 πb は DJS(ρb(s ) || ρ∗(s ) ) を最小化するために訓練する。 t=0 γt log(1 − C(st+1 ) ) 後方ポリシーの再生バッファは、もし利用可能であれば、後方デモDbを使って初期化されます。
0.75
Finally, the statespace discriminator C(s) trains to classify states sampled from the forward demonstrations Df with label 1 and states visited by πb as label 最後に、状態空間判別器C(s)は、ラベル1の前方デモDfからサンプリングされた状態と、πbがラベルとして訪れた状態の分類を行う。
訳抜け防止モード: 最後に、状態空間判別器C(s)列車 ラベル1とπbがラベルとして訪れた状態を前部デモDfからサンプリングした状態を分類する
0.74
0. Note, we are trying to match the state marginal of policy πb (i.e. ρb(s)) to the optimal state distribution ρ∗(s) (approximated via forward demonstrations Df , not backward demonstrations), thereby motivating the classification problem for C(s). 注意すべき点は、ポリシー πb (すなわち ρb(s)) と最適状態分布 ρ∗(s) (前向きの演示 Df で近似されるが、後向きの演示ではない)の状態境界を一致させることで、C(s) の分類問題を動機付けることである。 0.74
When interacting with the environment during training, we alternate between collecting samples using πf for a fixed number of steps and collecting samples using πb for a fixed number of steps. 訓練中の環境と対話する場合,定数のステップに対してπfを用いたサンプル収集と定数のステップでπbを用いたサンプル収集とを交互に行う。 0.79
The policies can be updated using any RL algorithm. ポリシーは任意のRLアルゴリズムを使って更新できる。 0.82
The state-space discriminator C(s) is updated every K steps collected in the environment, with the states visited by πb being labeled as 0 and states in Df labeled as 状態空間判別器C(s) は環境中で収集された K ステップごとに更新され、πb が訪れた状態は 0 とラベル付けされ、Df の状態はラベル付けされる。 0.70
1. The minibatch for updating the parameters of C(s) is balanced to ensure equal samples from ρ∗(s) and ρb(s). 1. C(s) のパラメータを更新するミニバッチは ρ∗(s) と ρb(s) から等しくサンプルを確実にするために均衡される。 0.84
The pseudocode for MEDAL is provided in Algorithm 1, and further implementation details can be found in Appendix A. MEDALの擬似コードはアルゴリズム1で提供され、さらに実装の詳細はAppendix Aで見ることができる。 0.75
5. Experiments In this section, we empirically analyze the performance of MEDAL to answer to following questions: (1) How does MEDAL compare to other non-episodic, autonomous RL methods? 実験 この節では、MEDALの性能を実証的に分析し、以下の質問に答える。
訳抜け防止モード: 5 実験 この節では、MEDALの性能を実証的に分析する。 以下の質問に答える : (1 ) MEDALは他の非エピソード・自律RL法と比較してどうか?
0.74
(2) Given the demonstrations, can existing imitation learning methods suffice? 2) 実演を考えた場合, 既存の模倣学習手法は十分か? 0.81
(3) How important is it for the backward controller to match the entire state distribution, instead of just the initial state distribution? (3) 初期状態の分布だけではなく、状態の分布全体と一致させることが、後方コントローラにとってどのくらい重要か? 0.81
Environments. To analyze these questions, we consider three sparse-reward continuous-control environments from the EARL benchmark (Sharma et al , 2022). 環境。 これらの問題を解析するために、EARLベンチマーク(Sharma et al , 2022)からスパース逆連続制御環境を3つ検討する。 0.49
The tabletop organization is a simplified manipulation environment where a gripper is tasked to move the mug to one of four coasters. テーブルトップの組織は、グリッパーがマグカップを4つのコースターのうちの1つに移動させるという単純な操作環境である。
訳抜け防止モード: テーブルトップ組織はシンプルな操作環境です グリッパーは マグを4つのコースターの1つに移すよう 命じられている
0.72
The sawyer door closing environment requires a sawyer robot arm to learn how to close a door starting from various initial positions. ソーヤードア閉鎖環境は、様々な初期位置からドアを閉じる方法を学ぶために、ソーヤーロボットアームを必要とする。 0.71
The challenge in the ARL ARLの課題 0.44
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
Figure 3. Continuous-control environments from the EARL benchmark: (left) Table-top organization (TO) where a gripper is tasked with moving a mug to one of the four goal locations, (center) sawyer door closing (SD) where the sawyer robot is tasked with closing the door, (right) sawyer peg insertion (SP) where the robot is tasked with picking up the peg and inserting into the goal location. 図3。 EARLベンチマークからの連続制御環境:(左)テーブルトップ組織(TO)、グリッパーがマグカップを4つの目標地点の1つに移動させる(中央)ソーヤードアクローズ(SD)、ソーヤーロボットがドアを閉じる(右)ソーヤーペグ挿入(SP)、ロボットがペグを拾い、ゴール地点に挿入する(SP)。 0.64
setting arises from the fact that the agent has to open the door to practice closing it again. 設定は エージェントがドアを開けて 閉じる練習をしなければならないという事実から生じます 0.71
Finally, the sawyer peg insertion environment requires the sawyer robot arm to pick up a peg and insert it into a designated goal location. 最後に、ソーヤーペグ挿入環境では、ソーヤーロボットアームがペグを拾い上げ、指定された目標位置に挿入する必要がある。 0.57
This is a particularly challenging environment as the autonomously operating robot can push the peg into places where it can be hard to retrieve it back, a problem that is not encountered in the episodic setting as the environment is reset to the initial state distribution every few hundred steps. これは、自律動作するロボットがペグを回収が難しい場所に押し込むことができるため、特に困難な環境であり、数百ステップ毎に初期状態分布にリセットされる環境がエピソディクス設定では発生しない問題である。 0.66
Evaluation. We follow the evaluation protocol laid down in the EARL benchmark. 評価 我々はEARLベンチマークに記載された評価プロトコルに従う。 0.60
All algorithms are reset to a state s0 ∼ ρ0 and interact with their environments almost fully autonomously thereon, only being reset to an initial state intermittently after several hundreds of thousands of steps of interaction. すべてのアルゴリズムは状態 s0 ρ0 にリセットされ、ほぼ完全に自律的に環境と相互作用し、数十万の操作の後に断続的に初期状態にリセットされる。 0.74
Since our objective is to acquire task policies in a sample efficient way, we will focus on deployed policy evaluation. 本研究の目的は,タスクポリシを効率的にサンプル的に取得することであり,デプロイされたポリシー評価に焦点をあてる。
訳抜け防止モード: 我々の目標は、タスクポリシーを効率的なサンプルで取得することである。 政策評価に 焦点を合わせます。
0.74
Specifically, we approximate t=0 γtr(st, at)] by averaging the return of the policy over 10 episodes starting from s0 ∼ ρ0, every 10, 000 steps collected in the training environment. 具体的には, t=0 γtr(st, at)] を, s0 から ρ0 までの10エピソードから, トレーニング環境で収集された10000ステップ毎に平均化することにより近似した。 0.71
Note, the trajectories collected for evaluation are not provided to the learning algorithm A. For all considered environments, the reward functions are sparse in nature and correspondingly, EARL provides a small set of demonstrations to the algorithms, that correspond to doing and undoing the task (a total of 10-30 demonstrations depending on the environment). なお、学習アルゴリズムAには評価のために収集された軌跡が与えられていないため、すべての考慮された環境において、報酬関数は自然に疎外されており、EARLはタスクの実施と解除(環境に応じて合計10~30回のデモンストレーション)に対応するアルゴリズムに小さなデモセットを提供する。 0.71
Environment specific details such as reward functions and intermittent resets can be found in Appendix B. 報酬関数や断続リセットといった環境固有の詳細は、Appendix Bで見ることができる。 0.65
J(πt) = E[(cid:80)∞ J(πt) = E[(cid:80)∞ 0.50
5.1. Benchmarking MEDAL on EARL 5.1. earLにおけるMEDALのベンチマーク 0.42
First, we benchmark our proposed method MEDAL on the aforementioned EARL environments against state-of-the-art non-episodic ARL methods. まず,上述したEARL環境上で提案手法のMEDALを,最先端の非エポゾディックARL法と比較した。 0.64
Comparisons. We briefly review the methods benchmarked on EARL, which MEDAL will be compared against: (1) forward-backward RL (FBRL) (Han et al , 2015; Eysenbach et al , 2017), where the backward policy recovers the initial state distribution; (2) value-accelerated persistent RL (VaPRL) (Sharma et al , 2021), where the backward policy 比較。 1) 後進RL(FBRL) (Han et al , 2015; Eysenbach et al , 2017) 後進政策は初期状態の分布を回復する; (2) 価値加速持続RL(VaPRL) (Sharma et al , 2021) 。
訳抜け防止モード: 比較。 MEDAL を EARL でベンチマークした手法を概観する。 (1 ) forward - backward RL (FBRL ) (Han et al。 2015 ; Eysenbach et al, 2017 ) 後戻り政策が初期状態の分布を回復する。 (2)値 - 加速持続RL(VaPRL) (Sharma et al, 2021 ) 後ろ向きの政策は
0.55
Method na¨ıve RL FBRL R3L VaPRL MEDAL oracle RL 方法 oracle rl の rl fbrl r3l vaprl メダル 0.49
Tabletop Organization 0.32 (0.17) 0.94 (0.04) 0.96 (0.04) 0.98 (0.02) 0.98 (0.02) 0.80 (0.11) テーブルトップ Organization 0.32 (0.17) 0.94 (0.04) 0.96 (0.04) 0.98 (0.02) 0.98 (0.02) 0.80 (0.11) 0.49
Sawyer Door 0.00 (0.00) 1.00 (0.00) 0.54 (0.18) 0.94 (0.05) 1.00 (0.00) 1.00 (0.00) ソーヤードア 0.00 (0.00) 1.00 (0.00) 0.54 (0.18) 0.94 (0.05) 1.00 (0.00) 1.00 (0.00) 0.55
Sawyer Peg 0.00 (0.00) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00) 0.40 (0.16) 1.00 (0.00) ソーヤー ペグ 0.00 (0.00) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00) 0.40 (0.16) 1.00 (0.00) 0.51
Table 1. Average return of the final learned policy. 表1。 最終学習方針の平均的な回帰。 0.74
Performance is averaged over 5 random seeds. 種子の平均値は5種以上である。 0.66
The mean and and the standard error are reported, with the best performing entry in bold. 平均と標準エラーが報告され、最もパフォーマンスの良いエントリは太字で表示される。 0.65
For all domains, 1.0 indicates the maximum performance and 0.0 indicates minimum performance. すべてのドメインに対して、1.0は最大パフォーマンスを示し、0.0は最小パフォーマンスを示す。 0.61
creates a curriculum based on the forward policy’s performance; (3) R3L (Zhu et al , 2020a) has a backward policy that optimizes a state-novelty reward (Burda et al , 2018) to encourage the forward policy to solve the tasks from new states in every trial; (4) na¨ıve RL represents the episodic RL approach where only a forward policy optimizes the taskreward throughout training; and finally (5) oracle RL is the same episodic RL baseline but operating in the episodic setting. 3) r3l (zhu et al , 2020a) は、段階的報酬(burda et al , 2018)を最適化し、すべての試行で新しい州からタスクを解決するための前方政策を奨励する後方方針を持っている。
訳抜け防止モード: 3 ) R3L (Zhu et al, 2020a ) は、国家を最適化する後方政策を持ち、新規性報酬 (Burda et al, 2018 )。 あらゆる裁判で 新国家の課題を 解決するよう前向きの政策を奨励し ; (4 ) na sıve RL はエピソード RL のアプローチを表す。 フォワードポリシーだけが トレーニングを通して タスクを最適化します 最後に (5 ) oracle RL は同じエピソード RL ベースラインであるが、エピソード設定で機能する。
0.72
For a fair comparison, the forward policy for all baselines use SAC (Haarnoja et al , 2018), and the replay buffer is always initialized with the forward demonstrations. 公平な比較として、すべてのベースラインのフォワードポリシーはSAC(Haarnoja et al , 2018)を使用し、リプレイバッファは常にフォワードデモで初期化される。 0.73
Further, the replay buffers for backward policies in FBRL, VaPRL is also initialized with the backward demos. さらに、FBRL、VaPRLにおける後方ポリシーのためのリプレイバッファも、後方デモで初期化される。 0.71
The replay buffer of the backward policy in R3L is not initialized with backward demos as it will reduce the novelty of the states in the backward demos for the RND reward without the backward policy ever visiting those states. R3Lの後方ポリシーのリプレイバッファは、これらの州を訪れることなくRND報酬の後方デモで州の新規性を減少させるため、後方デモでは初期化されない。 0.67
It’s important to note that some of these comparisons make additional assumptions compared to MEDAL: これらの比較のいくつかは、MEDALと比較して追加の仮定をしている点に注意が必要だ。 0.49
• oracle RL operates in the episodic setting, that is the environment is reset to a state from the initial state distribution every few hundred steps. • oracle rlはエピソディクス設定で動作し、数百ステップごとに初期状態のディストリビューションから状態にリセットされます。
訳抜け防止モード: •オラクルRLはエピソード設定で動作する。 つまり環境は数百ステップ毎に初期状態分布から状態にリセットされます。
0.65
The baseline is included as a reference to compare performance of baselines in ARL versus the conventional episodic ベースラインはARLにおけるベースラインのパフォーマンスと従来のエピソードの比較基準として含まれる 0.83
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
Figure 4. Performance of each method on (left) the table-top organization environment, (center) the sawyer door closing environment, and (right) the sawyer peg environment. 図4。 テーブルトップ組織環境(左)、ソーヤードア閉鎖環境(中央)、ソーヤーペグ環境(右)における各メソッドのパフォーマンス。 0.68
Plots show learning curves with mean and standard error over 5 random seeds. プロットは5つのランダムシードの平均値と標準値の学習曲線を示す。 0.66
setting. It also enables us to compare the performance of conventional RL algorithms when moving from the episodic setting to the ARL setting, by comparing the performance of oracle RL and na¨ıve RL. 設定 また, オラクルRLとナ・シュヴェRLの性能を比較することにより, エピソード設定からARL設定への移行時の従来のRLアルゴリズムの性能を比較することもできる。 0.65
• VaPRL relies on relabeling goals which requires the ability to query the reward function for any arbitrary state and goal (as the VaPRL curriculum can task the agent to reach arbitrary goals from the demonstrations). • vaprlは、任意の状態と目標に対して報酬関数を問い合わせる能力を必要とするrelabeling goalに依存している(vaprlのカリキュラムでは、エージェントがデモから任意の目標に到達するように指示することができる)。 0.67
Additionally, VaPRL has a task specific hyperparameter that controls how quickly the curriculum moves towards the initial state distribution. さらに、VaPRLはタスク固有のハイパーパラメータを持ち、カリキュラムが初期状態分布に向かってどれだけ早く動くかを制御する。 0.60
In a real-world settings, where the reward function often needs to be learned as well (for example from images), these assumptions can be detrimental to their practical application. 実世界の環境では、報酬関数を学習する必要がある場合(例えば画像から)、これらの仮定は実践的な応用に有害である。 0.67
While FBRL also requires an additional reward function to reach the initial state distribution, the requirement is not as steep. FBRLはまた、初期状態の分布に到達するために追加の報酬関数を必要とするが、要求はそれほど急ではない。
訳抜け防止モード: FBRLはまた、初期状態の分布に到達するために追加の報酬関数を必要とする。 要求は急ではない
0.72
Additionally, we consider a version of FBRL that learns this reward function in Section 5.3. さらに、この報酬関数を学習するfbrlのバージョンをセクション5.3で検討する。 0.63
However, the ability to query the reward function for arbitrary states and goals, as is required by VaPRL, can be infeasible in practice. しかしながら、vaprlが要求する任意の状態や目標に対して報酬関数を問い合わせる能力は、実際には実現不可能である。 0.65
The impact of these additional assumptions cannot be overstated, as the primary motivation for the autonomous RL framework is to be representative of real-world RL training. 自律的なRLフレームワークの第一の動機は、実世界のRLトレーニングを代表することである。
訳抜け防止モード: これらの追加仮定の影響は過大評価されない。 自律的なRLフレームワークの主な動機は、実世界のRLトレーニングを代表することである。
0.64
Results. Table 5.1 shows the performance of the final forward policy, and Figure 4 shows the deployed performance of the forward policy versus the training time for different methods. 結果だ 表5.1は最終前のポリシーのパフォーマンスを示し、図4は、異なるメソッドのトレーニング時間に対して前方ポリシーのデプロイされたパフォーマンスを示しています。 0.68
MEDAL consistently outputs the best performing final policy, as can be seen in Table 5.1. MEDALは、表5.1で見られるように、常に最高のパフォーマンスの最終的なポリシーを出力する。 0.55
Particularly notable is the performance on sawyer peg insertion, where the final policy learned by MEDAL gets 40% success rate on average, while all other methods fail completely. 特に注目すべきは、ソーヤーペグ挿入のパフォーマンスであり、MEDALが学んだ最後のポリシーは平均40%の成功率を得るが、他のすべての方法は完全に失敗する。
訳抜け防止モード: 特に注目すべきは、MEDALが学んだ最終方針が平均40%の成功率を得るソーヤーペグ挿入のパフォーマンスである。 他のメソッドはすべてフェールします。
0.72
With the exception of VaPRL on tabletop organization, MEDAL also learns more efficiently compared to any of the prior methods. テーブルトップ組織におけるVaPRLを除いて、MEDALは以前のどの方法よりも効率的に学習する。 0.69
Notably, MEDAL substantially reduces the sample efficiency gap between ARL methods and episodic methods on sawyer door closing. 特にMEDALは, ソーヤードア閉口におけるARL法とエピソード法との試料効率ギャップを著しく低減する。 0.58
We posit two reasons for the success of MEDAL: (a) Learn- MEDALの成功の理由を2つ挙げる:(a)学習- 0.79
ing a backward policy that retrieves the agent close to the task distribution enables efficient exploration, producing the speedup in performance. タスク分散に近いエージェントを取得するための下位ポリシーをingは効率的な探索を可能にし、パフォーマンスのスピードアップを生み出す。 0.72
(b) Bringing the agent closer to the state distribution implicit in the demonstrations may be easier to maximize compared to other objectives, for example, retrieving the agent to the initial state distribution. b) エージェントをデモで暗黙的に状態分布に近づけることは、例えばエージェントを初期状態分布に回収するなど、他の目的よりも容易に最大化することができる。 0.81
Figure 5. MEDAL in comparison to imitation learning methods on tabletop organization and sawyer door closing. 図5。 MEDAL : テーブルトップ組織における模擬学習法とソーヤードア閉鎖法の比較 0.76
Behavior cloning (BC) does not fare well, suggesting the importance of online data collection. 行動クローニング(BC)は、オンラインデータ収集の重要性を示唆している。 0.71
The success of online imitation learning methods such as GAIL in episodic settings does not translate to the non-episodic ARL setting, as indicated by the substantial drop in performance of na¨ıve GAIL compared to oracle GAIL. GAILのようなオンラインの模倣学習手法の成功は、GAILとオラクルGAILの実質的な性能低下が示すように、非エピソジックARL設定に反映されない。 0.65
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
5.2. Imitation Learning 5.2. 模倣学習 0.51
Given that MEDAL assumes access to a set of demonstrations, a natural alternative to consider is imitation learning. MEDALが一連のデモへのアクセスを前提としていることを考えると、考慮すべき自然な代替手段は模倣学習である。 0.53
In this section, we focus our experiments on the tabletop organization environment. この節では、実験をテーブルトップ組織環境に焦点を合わせます。 0.76
We first test how a behavior cloning fares (BC). まず,bc(behavior clones)をテストした。 0.59
Results in Figure 5 suggest that behavior cloning does not do well on tabletop organization, completely failing to solve the task and leaves substantial room for improvement on sawyer door. 図5の結果は、行動のクローンはテーブルトップの組織ではうまく機能せず、タスクを完全に解決できず、ソーヤードアの改善の余地を残していることを示唆している。 0.62
This is to be expected as EARL provides only a small number of demonstrations, and errors compounding over time from imperfect policies generally leads to poor performance. EARLは少数のデモしか提供せず、不完全なポリシーからのエラーは一般的にパフォーマンスの低下につながるため、これは予想される。 0.65
How do imitation learning methods with online data collection fare? オンラインデータ収集による模倣学習手法について 0.67
We consider an off-policy version of GAIL, Discriminator Actor-Critic (DAC) (Kostrikov et al , 2018), which matches ρπ(s, a) to ρ∗(s, a) with an implicit distribution matching approach similar to ours. 我々はgailのオフポリシー版であるdac (kostrikov et al , 2018) を検討し、ρπ(s, a) と ρ∗(s, a) をマッチングし、我々のものと同じような暗黙の分布マッチングアプローチをとる。 0.73
Assuming that ρπ(s, a) can match ρ∗(s, a), the method should in principle recover the optimal policy – there is nothing specific about GAIL that restricts it to the episodic setting. ρπ(s, a) が ρ∗(s, a) と一致すると仮定すると、この方法は原則として最適なポリシーを回復すべきである。
訳抜け防止モード: ρπ(s, a) が ρ∗(s, a) と一致すると仮定する。 その方法は原則として最適な政策を回復すべきである。 GAILについて、それがエピソード設定に制限されるものは何もありません。
0.66
However, as the results in Figure 5 suggest, there is a substantial drop in performance when running GAIL in episodic setting (oracle GAIL) versus the non-episodic ARL setting (na¨ıve GAIL). しかし、図5で示されるように、エピソード設定(オークルGAIL)でGAILを実行する場合と、非エピソードARL設定(na sıve GAIL)ではパフォーマンスが大幅に低下する。 0.65
While such a distribution matching could succeed, na¨ıvely extending the methods to the ARL setting is not as successful, suggesting that it may require an additional policy (similar to the backward policy) to be more effective. このような分布マッチングが成功する可能性はあるが、ARL設定へのメソッド拡張は成功していないため、より効果的な追加ポリシー(後続ポリシーと同様)が必要かもしれない。 0.74
5.3. The Choice of State Distribution 5.3. 国家分布の選択は 0.49
The key element in MEDAL is matching the state distribution of the backward policy to the states in the demonstrations. MEDALの鍵となる要素は、デモ中の状態と後方ポリシーの状態分布を一致させることである。 0.73
To isolate the role of our proposed scheme of minimizing DJS(ρb || ρ∗), we compare it to an alternate method that minimizes DJS(ρb || ρ0), i.e., matching the initial state distribution ρ0 instead of ρ∗. 提案した DJS(ρb || ρ∗) の最小化スキームの役割を分離するために、DJS(ρb || ρ0) を最小化する別の方法、すなわち ρ∗ の代わりに初期状態分布 ρ0 をマッチングする手法と比較する。 0.79
This makes exactly one change to MEDAL: instead of sampling positives for the discriminator C(s) from forward demonstrations Df , the positives are sampled from ρ0. これはちょうど MEDAL に1つの変化をもたらす: 前方デモ Df から判別器 C(s) に対して正をサンプリングする代わりに、正を ρ0 からサンプリングする。 0.68
Interestingly, this also provides a practically realizable implementation of FBRL, as it removes the requirement of the additional reward function required for the learning a backward policy to reach the initial state distribution. 興味深いことに、これはFBRLの事実上実現可能な実装を提供する。これは、初期状態分布に到達するために後方ポリシーを学ぶのに必要な追加の報酬関数の要求を取り除くためである。
訳抜け防止モード: 興味深いことに、これは事実上実現可能なFBRLの実装を提供する。 後方政策の学習に必要な追加報酬関数の要求が取り除かれるため 初期状態の分布にたどり着きます
0.74
We call this method FBRL + VICE as VICE (Singh et al , 2019) enables learning a goal reaching reward function using a few samples of the goal distribution, in this case the goal distribution for πb being ρ0. 我々はこのFBRL + VICE を VICE (Singh et al , 2019) と呼び、ゴール分布の少数のサンプルを用いてゴール到達報酬関数の学習を可能にし、この場合 πb のゴール分布は ρ0 となる。 0.84
As can be seen in Figure 6, the FBRL + VICE learns slower than MEDAL, highlighting the importance of matching the entire state distribution as done in MEDAL. 図6に示すように、FBRL + VICE は MEDAL よりも遅く学習し、MEDAL で行われている状態分布全体と一致することの重要性を強調している。 0.78
6. Conclusion We propose MEDAL, an autonomous RL algorithm that learns a backward policy to match the expert state distri- 結論 MEDAL は,エキスパート状態と一致する後方ポリシを学習する自律的RLアルゴリズムである。
訳抜け防止モード: 6 結論 自律RLアルゴリズムであるMEDALを提案する。 専門家のディストリと一致するための後方政策を学ぶ
0.65
Figure 6. Isolating the effect of matching demonstration data. 図6。 実演データとのマッチングの効果を分離する。 0.71
The speed up of MEDAL compared to FBRL + VICE, which matches the initial state distribution, suggests that the performance gains of MEDAL can be attributed to the better initial state distribution created by the backward controller. 初期状態分布と一致するFBRL + VICEと比較してMEDALの高速化は、MEDALの性能向上は、後方制御器によって生成されたより良い初期状態分布に起因することを示唆している。 0.81
bution using an implicit distribution matching approach. 暗黙の分布マッチングアプローチを用いたブティオン。 0.73
Our empirical analysis indicates that this approach creates an effective initial state distribution for the forward policy, improving both the performance and the efficiency. 我々の実証分析は,本手法が前向き政策に有効な初期状態分布を創出し,性能と効率を両立させることを示唆している。 0.74
The simplicity of MEDAL also makes it more amenable for the real-world, not requiring access to additional reward functions. MEDALの単純さにより、報酬関数の追加を必要とせず、現実世界でもより快適になる。 0.70
MEDAL assumes access to a (small) set of demonstrations, which may not be feasible in several real-world scenarios. MEDALは、いくつかの実世界のシナリオでは実現不可能な(小さな)デモセットへのアクセスを前提としている。 0.60
Identifying good initial state distributions without relying on a set of demonstrations would increase the applicability of MEDAL. 一連のデモに頼ることなく、優れた初期状態分布を特定することで、MEDALの適用性が向上する。
訳抜け防止モード: デモに頼らずに良い初期状態分布を同定する MEDALの適用性を高めるだろう。
0.68
Similarly, in applications where safe exploration is a requirement, MEDAL can be adapted to constrain the forward policy such that it stays close to the task-distribution defined by the demonstrations. 同様に、安全な探索が要求されるアプリケーションでは、MEDALは、デモンストレーションによって定義されたタスク分散に近づき続けるように前方ポリシーに適応することができる。 0.74
While MEDAL pushes further the improvements in ARL, as exemplified by the reduction of sample efficiency gap on sawyer door closing results, there is still a substantial gap in performance between ARL methods and oracle RL on sawyer peg, motivating the search for better methods. MEDALはARLの改良を推し進めているが, ソーヤードア閉口における試料効率ギャップの低減が示すように, ソーヤーペグ上でのARL法とオラクルRLのパフォーマンスには大きな差がある。
訳抜け防止モード: MEDALはARLの改良を推し進める一方で、ソーヤードア閉口における試料効率ギャップの低減を例に挙げる。 ソーヤーペグ上でのARL法とオラクルRLのパフォーマンスには,依然として大きなギャップがある。 より良い方法の探索を動機付けます
0.67
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
References Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., and Zaremba, W. Hindsight experience replay. Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba を参照。
訳抜け防止モード: Andrychowicz, M., Wolski, F., Ray, A. Schneider, J., Fong, R., Welinder, P. McGrew, B., Tobin, J., Abbeel, P. そして、Zaremba , W. Hindsight experience replay 。
0.82
arXiv preprint arXiv:1707.01495, 2017. arxiv プレプリント arxiv:1707.01495, 2017 0.43
Argall, B. D., Chernova, S., Veloso, M., and Browning, B. A survey of robot learning from demonstration. argall, b. d., chernova, s., veloso, m. and browning, b. a survey of robot learning from demonstration (英語)
訳抜け防止モード: Argall, B. D., Chernova, S., Veloso, M. とBrowning, B. デモからのロボット学習に関する調査
0.83
Robotics and autonomous systems, 57(5):469–483, 2009. ロボットと自律システム, 57(5):469–483, 2009 0.87
Baram, N., Anschel, O., Caspi, I., and Mannor, S. Endto-end differentiable adversarial imitation learning. Baram, N., Anschel, O., Caspi, I., and Mannor, S. Endto-end differentiable adversarial mimicion learning 0.44
In International Conference on Machine Learning, pp. 390– 399. 国際機械学習会議、p.390-399。 0.61
PMLR, 2017. 2017年、PMLR。 0.66
Bloesch, M., Humplik, J., Patraucean, V., Hafner, R., Haarnoja, T., Byravan, A., Siegel, N. Y., Tunyasuvunakool, S., Casarini, F., Batchelor, N., et al Towards real robot learning in the wild: A case study in bipedal locomotion. Bloesch, M., Humplik, J., Patraucean, V., Hafner, R., Haarnoja, T., Byravan, A., Siegel, N. Y., Tunyasuvunakool, S., Casarini, F., Batchelor, N., et al al 野生での実際のロボット学習に向けたケーススタディ。 0.74
In Conference on Robot Learning, pp. 1502– 1511. ロボット学習に関する国際会議, pp. 1502-1511。 0.79
PMLR, 2022. PMLR、2022年。 0.78
Brys, T., Harutyunyan, A., Suay, H. B., Chernova, S., Taylor, M. E., and Now´e, A. Reinforcement learning from demonstration through shaping. Brys, T., Harutyunyan, A., Suay, H. B., Chernova, S., Taylor, M. E., and Now ́e, A. Reinforcement learning from demonstration through formping。
訳抜け防止モード: Brys, T., Harutyunyan, A., Suay, H. B. Chernova, S., Taylor, M. E., and Now ́e A. 成形による実演からの強化学習
0.90
In Twenty-fourth international joint conference on artificial intelligence, 2015. 2015年、第24回人工知能国際会議。 0.57
Burda, Y., Edwards, H., Storkey, A., and Klimov, O. Exploration by random network distillation. ランダムネットワーク蒸留によるBurda, Y., Edwards, H., Storkey, A. and Klimov, O. Exploration 0.77
arXiv preprint arXiv:1810.12894, 2018. arXiv preprint arXiv:1810.12894, 2018 0.40
Campos, V., Trott, A., Xiong, C., Socher, R., Gir´o-i Nieto, X., and Torres, J. Explore, discover and learn: Unsupervised discovery of state-covering skills. Campos, V., Trott, A., Xiong, C., Socher, R., Gir ́o-i Nieto, X., and Torres, J. Explore, discover and learn: Unsupervised discovery of state-covering skills。 0.48
In International Conference on Machine Learning, pp. 1317–1327. 国際機械学習会議、p.1317-1327。 0.64
PMLR, 2020. PMLR、2020年。 0.88
Chatzilygeroudis, K., Vassiliades, V., and Mouret, J. Chatzilygeroudis, K., Vassiliades, V., Mouret, J。 0.37
-B. Reset-free trial-and-error learning for robot damage recovery. -B。 ロボット損傷回復のためのリセットフリートライアル・アンド・エラー学習 0.49
Robotics and Autonomous Systems, 100:236–250, 2018. ロボティクスと自律システム、2018年100:236-250。 0.63
Co-Reyes, J. D., Sanjeev, S., Berseth, G., Gupta, A., and Levine, S. Ecological reinforcement learning. Co-Reyes, J. D., Sanjeev, S., Berseth, G., Gupta, A., Levine, S. Ecological reinforcement learning。
訳抜け防止モード: co - reyes, j. d., sanjeev, s., berseth。 gupta, a., levine, s. ecological reinforcement learning などである。
0.69
arXiv preprint arXiv:2006.12478, 2020. arxiv プレプリント arxiv:2006.12478, 2020 0.43
Even-Dar, E., Kakade, S. M., and Mansour, Y. Reinforce- Even-Dar, E., Kakade, S. M. and Mansour, Y. Reinforce 0.45
ment learning in pomdps without resets. リセットのないpomdpにおけるメント学習 0.70
2005. Eysenbach, B., Gu, S., Ibarz, J., and Levine, S. Leave no trace: Learning to reset for safe and autonomous reinforcement learning. 2005. eysenbach, b., gu, s., ibarz, j., levine, s.は、安全で自律的な強化学習のためにリセットする学習の痕跡を残さない。
訳抜け防止モード: 2005. Eysenbach, B., Gu, S., Ibarz, J. Levine, S. leave no trace : 安全で自律的な強化学習のためにリセットする学習。
0.65
arXiv preprint arXiv:1711.06782, 2017. arxiv プレプリント arxiv:1711.06782, 2017 0.42
Eysenbach, B., Gupta, A., Ibarz, J., and Levine, S. Diversity is all you need: Learning skills without a reward function. eysenbach, b., gupta, a., ibarz, j., levine, s. diversityが必要なのは、報酬機能のない学習スキルだけです。 0.73
arXiv preprint arXiv:1802.06070, 2018. arXiv preprint arXiv:1802.06070, 2018 0.40
Finn, C., Levine, S., and Abbeel, P. Guided cost learning: Deep inverse optimal control via policy optimization. Finn, C., Levine, S., Abbeel, P. Guided Cost Learning: Deep inverse optimal control via policy optimization。 0.41
In International conference on machine learning, pp. 49–58. 英語) international conference on machine learning, pp. 49-58。 0.77
PMLR, 2016. 2016年、PMLR。 0.69
Fu, J., Singh, A., Ghosh, D., Yang, L., and Levine, S. Variational inverse control with events: A general framework for data-driven reward definition. Fu, J., Singh, A., Ghosh, D., Yang, L., Levine, S. Variational inverse control with events: データ駆動報酬定義のための一般的なフレームワーク。 0.87
arXiv preprint arXiv:1805.11686, 2018. arXiv preprint arXiv:1805.11686, 2018 0.40
Ghasemipour, S. K. S., Zemel, R., and Gu, S. A divergence minimization perspective on imitation learning methods. Ghasemipour, S. K. S., Zemel, R., Gu. S. 模倣学習法における発散最小化の視点 0.89
In Conference on Robot Learning, pp. 1259–1277. ロボット学習に関する国際会議,p.1259-1277。 0.69
PMLR, 2020. PMLR、2020年。 0.88
Goodfellow, I. Nips 2016 tutorial: Generative adversarial goodfellow, i. nips 2016チュートリアル:generative adversarial 0.80
networks. arXiv preprint arXiv:1701.00160, 2016. ネットワーク。 arxiv プレプリント arxiv:1701.00160, 2016 0.56
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. goodfellow, i., pouget-abadie, j., mirza, m., xu, b., warde-farley, d., ozair, s., courville, a., and bengio, y. generative adversarial nets. 0.39
Advances in neural information processing systems, 27, 2014. ニューラル情報処理システムの進歩, 2014年7月27日。 0.74
Gregor, K., Rezende, D. J., and Wierstra, D. Variational intrinsic control. Gregor, K., Rezende, D. J. and Wierstra, D. Variational intrinsic control 0.44
arXiv preprint arXiv:1611.07507, 2016. arxiv プレプリント arxiv:1611.07507, 2016 0.43
Gupta, A., Yu, J., Zhao, T. Z., Kumar, V., Rovinsky, A., Xu, K., Devlin, T., and Levine, S. Reset-free reinforcement learning via multi-task learning: Learning dexterous manipulation behaviors without human intervention. Gupta, A., Yu, J., Zhao, T. Z., Kumar, V., Rovinsky, A., Xu, K., Devlin, T., Levine, S。
訳抜け防止モード: Gupta, A., Yu, J., Zhao, T. Z. Kumar, V., Rovinsky, A., Xu, K. Devlin, T. and Levine, S. Reset - マルチタスク学習による無料強化学習- 人間の介入なしに巧妙な操作行動を学ぶ。
0.88
arXiv preprint arXiv:2104.11203, 2021. arXiv preprint arXiv:2104.11203, 2021 0.40
Ha, S., Xu, P., Tan, Z., Levine, S., and Tan, J. Learning to walk in the real world with minimal human effort. Ha, S., Xu, P., Tan, Z., Levine, S. and Tan, J. Learning to walk in the real world with minimal human effort。
訳抜け防止モード: Ha,S.,Xu,P.,Tan,Z. Levine, S., and Tan, J. Learning 人間の努力を最小限に抑えて 現実世界を歩き回っています
0.84
arXiv preprint arXiv:2002.08550, 2020. arXiv preprint arXiv:2002.08550, 2020 0.40
Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor。 0.48
In International conference on machine learning, pp. 1861–1870. 機械学習に関する国際会議』、p. 1861-1870。 0.76
PMLR, 2018. 2018年、PMLR。 0.68
Han, W., Levine, S., and Abbeel, P. Learning compound multi-step controllers under unknown dynamics. Han, W., Levine, S. and Abbeel, P. Learning Complex Multi-step controllers under unknown dynamics。 0.44
In 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 6435–6442. 2015年、IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 6435–6442。 0.87
IEEE, 2015. 2015年、IEEE。 0.69
Hazan, E., Kakade, S., Singh, K., and Van Soest, A. Provably efficient maximum entropy exploration. hazan, e., kakade, s., singh, k., van soest, a. provably effective maximum entropy exploration (英語)
訳抜け防止モード: Hazan, E., Kakade, S., Singh, K. そして、Van Soest, A。 エントロピー探索の効率は高い。
0.81
In International Conference on Machine Learning, pp. 2681–2691. 機械学習国際会議』2681-2691頁。 0.57
PMLR, 2019. 2019年、PMLR。 0.72
Hester, T., Vecerik, M., Pietquin, O., Lanctot, M., Schaul, T., Piot, B., Horgan, D., Quan, J., Sendonaris, A., Osband, I., et al Deep q-learning from demonstrations. Hester, T., Vecerik, M., Pietquin, O., Lanctot, M., Schaul, T., Piot, B., Horgan, D., Quan, J., Sendonaris, A., Osband, I., et al Deep q-learning from demonstrations。
訳抜け防止モード: Hester, T., Vecerik, M., Pietquin, O. Lanctot, M., Schaul, T., Piot, B. Horgan, D., Quan, J., Sendonaris, A. Osband, I., et al Deep q - デモから学びました
0.84
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 32, 2018. AAAI Conference on Artificial Intelligence、第32巻、2018年。 0.62
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
Ho, J. and Ermon, S. Generative adversarial imitation learning. Ho, J. and Ermon, S. Generative adversarial mimicion learning 0.41
Advances in neural information processing systems, 29:4565–4573, 2016. ニューラル情報処理システムの進歩 (29:4565–4573, 2016) 0.70
Sharma, A., Gu, S., Levine, S., Kumar, V., and Hausman, K. Dynamics-aware unsupervised discovery of skills. Sharma, A., Gu, S., Levine, S., Kumar, V., Hausman, K. Dynamicsは、教師なしのスキル発見を意識している。 0.76
arXiv preprint arXiv:1907.01657, 2019. arXiv preprint arXiv:1907.01657, 2019 0.41
Kakade, S. and Langford, J. Approximately optimal approximate reinforcement learning. Kakade, S. and Langford, J. 近似近似強化学習 0.34
In In Proc. 19th International Conference on Machine Learning. に登場。 第19回機械学習国際会議に参加。 0.52
Citeseer, 2002. 2002年、Citeseer。 0.73
Kostrikov, I., Agrawal, K. K., Dwibedi, D., Levine, S., and Tompson, J. Discriminator-actor- critic: Addressing sample inefficiency and reward bias in adversarial imitation learning. Kostrikov, I., Agrawal, K. K., D., Levine, S., and Tompson, J. Discriminator-actor- critic: 敵模倣学習におけるサンプル非効率性と報酬バイアスに対処する。 0.83
arXiv preprint arXiv:1809.02925, 2018. arXiv preprint arXiv:1809.02925, 2018 0.40
Lee, L., Eysenbach, B., Parisotto, E., Xing, E., Levine, S., and Salakhutdinov, R. Efficient exploration via state marginal matching. Lee, L., Eysenbach, B., Parisotto, E., Xing, E., Levine, S., Salakhutdinov, R. Efficient exploration via state marginal matching。
訳抜け防止モード: lee, l., eysenbach, b., parisotto, e. xing氏、levine氏、s.氏、salakhutdinov氏、r. state marginal matchingによる効率的な探索。
0.75
arXiv preprint arXiv:1906.05274, 2019. arxiv プレプリント arxiv: 1906.05274, 2019 0.43
Lu, K., Grover, A., Abbeel, P., and Mordatch, I. Reset-free lifelong learning with skill-space planning. Lu, K., Grover, A., Abbeel, P., Mordatch, I. Reset-free lifelong learning with skill-space planning。
訳抜け防止モード: Lu, K., Grover, A., Abbeel, P. Mordatch, I. Reset - スキルを持ったフリーの生涯学習 - スペースプランニング。
0.78
arXiv preprint arXiv:2012.03548, 2020. arxiv プレプリント arxiv:2012.03548, 2020 0.43
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al Human-level control through deep reinforcement learning. mnih, v., kavukcuoglu, k., silver, d., rusu, a. a., veness, j., bellemare, m. g., graves, a., riedmiller, m., fidjeland, a. k., ostrovski, g., et al human-level control through deep reinforcement learning (英語)
訳抜け防止モード: Mnih, V., Kavukcuoglu, K., Silver, D. Rusu, A. A., Veness, J., Bellemare, M. G. Graves, A., Riedmiller, M., Fidjeland, A. K. Ostrovski, G., et al Human - 深層強化学習によるレベルコントロール。
0.89
nature, 518(7540): 529–533, 2015. 自然, 518(7540): 529–533, 2015 0.85
Nair, A., McGrew, B., Andrychowicz, M., Zaremba, W., and Abbeel, P. Overcoming exploration in reinforcement learning with demonstrations. Nair, A., McGrew, B., Andrychowicz, M., Zaremba, W. and Abbeel, P。 0.43
In 2018 IEEE international conference on robotics and automation (ICRA), pp. 6292– 6299. 2018年、IEEE International Conference on Robotics and Automation (ICRA), pp. 6292–6299。 0.39
IEEE, 2018. 2018年、IEEE。 0.52
Ng, A. Y., Russell, S. J., et al Algorithms for inverse reinforcement learning. 逆強化学習のためのng, a. y., russell, s. j., et alアルゴリズム 0.79
In Icml, volume 1, pp. 2, 2000. Icml, volume 1, pp. 2 2000。 0.65
Nowozin, S., Cseke, B., and Tomioka, R. f-gan: Training generative neural samplers using variational divergence minimization. Nowozin, S., Cseke, B. and Tomioka, R. f-gan : 変異分散最小化を用いた生成神経サンプルの訓練 0.85
In Proceedings of the 30th International Conference on Neural Information Processing Systems, pp. 271–279, 2016. 第30回神経情報処理システム国際会議紀要, pp. 271-279, 2016
訳抜け防止モード: 第30回神経情報処理システム国際会議の開催にあたって pp . 271–279 , 2016 .
0.83
Rafailov, R., Yu, T., Rajeswaran, A., and Finn, C. Visual adversarial imitation learning using variational models. Rafailov, R., Yu, T., Rajeswaran, A. and Finn, C. Visualversarial mimicion learning using variational model。
訳抜け防止モード: Rafailov, R., Yu, T., Rajeswaran, A. そしてFinn, C. 変分モデルを用いた視覚的対人模倣学習
0.84
Advances in Neural Information Processing Systems, 34, 2021. ニューラル情報処理システム(34,2021)の進歩 0.67
Rajeswaran, A., Kumar, V., Gupta, A., Vezzani, G., Schulman, J., Todorov, E., and Levine, S. Learning complex dexterous manipulation with deep reinforcement learning and demonstrations. Rajeswaran, A., Kumar, V., Gupta, A., Vezzani, G., Schulman, J., Todorov, E., and Levine, S. Learning Complex dexterous manipulate with Deep reinforcement learning and demonstrations。
訳抜け防止モード: Rajeswaran, A., Kumar, V., Gupta, A. Vezzani, G., Schulman, J., Todorov, E. そして、Levine, S. Learningは、深い強化学習とデモによる複雑な巧妙な操作である。
0.83
arXiv preprint arXiv:1709.10087, 2017. arxiv プレプリント arxiv:1709.10087, 2017 0.42
Sharma, A., Gupta, A., Levine, S., Hausman, K., and Finn, C. Autonomous reinforcement learning via subgoal curricula. Sharma, A., Gupta, A., Levine, S., Hausman, K. and Finn, C. autonomous reinforcement learning through subgoal curricula。
訳抜け防止モード: sharma, a., gupta, a., levine, s. hausman, k., finn, c. subgoal curricula による自律強化学習
0.67
Advances in Neural Information Processing Systems, 34, 2021. ニューラル情報処理システム(34,2021)の進歩 0.67
Sharma, A., Xu, K., Sardana, N., Gupta, A., Hausman, K., Levine, S., and Finn, C. Autonomous reinforcement learning: Formalism and benchmarking. Sharma, A., Xu, K., Sardana, N., Gupta, A., Hausman, K., Levine, S., Finn, C. 自律強化学習:形式主義とベンチマーク。 0.82
International Conference on Learning Representations, 2022. 英語) international conference on learning representations, 2022 0.81
Singh, A., Yang, L., Hartikainen, K., Finn, C., and Levine, S. End-to-end robotic reinforcement learning without reward engineering. Singh, A., Yang, L., Hartikainen, K., Finn, C., Levine, S. End-to-end Robotics reinforcement learning without reward engineering。
訳抜け防止モード: Singh, A., Yang, L., Hartikainen, K. Finn, C. and Levine, S. End - To - 報酬工学なしでロボット強化学習を終了する。
0.85
arXiv preprint arXiv:1904.07854, 2019. arxiv プレプリント arxiv:1904.07854, 2019 0.42
Smith, L., Kew, J. C., Peng, X. B., Ha, S., Tan, J., and Levine, S. Legged robots that keep on learning: Finetuning locomotion policies in the real world. Smith, L., Kew, J. C., Peng, X. B., Ha, S., Tan, J. and Levine, S. Legged Robots that keep to learn: Finetuning locomotion Policy in the real world。
訳抜け防止モード: Smith, L., Kew, J. C., Peng, X. B. 学習を続けるHa,S.,Tan,J.,Levine, S.Leggedロボット 現実世界における微妙なロコモーション政策。
0.72
arXiv preprint arXiv:2110.05457, 2021. arXiv preprint arXiv:2110.05457, 2021 0.40
Torabi, F., Warnell, G., and Stone, P. Adversarial imitation In Proceedlearning from state-only demonstrations. Torabi, F., Warnell, G. and Stone, P. Adversarial mimicion In Proceedlearning from state-only demonstrations 0.44
ings of the 18th International Conference on Autonomous Agents and MultiAgent Systems, pp. 2229–2231, 2019. The 18th International Conference on Autonomous Agents and MultiAgent Systems, pp. 2229–2231, 2019
訳抜け防止モード: 第18回国際エージェント・マルチエージェントシステム会議に参加して pp . 2229–2231 , 2019 .
0.83
Vecerik, M., Hester, T., Scholz, J., Wang, F., Pietquin, O., Piot, B., Heess, N., Roth¨orl, T., Lampe, T., and Riedmiller, M. Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards. vecerik, m., hester, t., scholz, j., wang, f., pietquin, o., piot, b., heess, n., roth sorl, t., lampe, t., riedmiller, m. ロボット工学の難解な問題に対する深い強化学習のデモを活用している。 0.70
arXiv preprint arXiv:1707.08817, 2017. arxiv プレプリント arxiv:1707.08817, 2017 0.43
Xu, K., Verma, S., Finn, C., and Levine, S. Continual learning of control primitives: Skill discovery via resetgames. Xu, K., Verma, S., Finn, C., Levine, S. コントロールプリミティブの継続的な学習:リセットゲームによるスキル発見。 0.85
arXiv preprint arXiv:2011.05286, 2020. arxiv プレプリント arxiv:2011.05286, 2020 0.43
Zhang, H., Cisse, M., Dauphin, Y. N., and Lopez-Paz, D. mixup: Beyond empirical risk minimization. Zhang, H., Cisse, M., Dauphin, Y. N., Lopez-Paz, D. mixup: 経験的リスク最小化を超えて。 0.81
arXiv preprint arXiv:1710.09412, 2017. arxiv プレプリント arxiv:1710.09412, 2017 0.41
Zhu, H., Yu, J., Gupta, A., Shah, D., Hartikainen, K., Singh, A., Kumar, V., and Levine, S. The ingredients of real world robotic reinforcement learning. Zhu, H., Yu, J., Gupta, A., Shah, D., Hartikainen, K., Singh, A., Kumar, V., Levine, S。
訳抜け防止モード: Zhu, H., Yu, J., Gupta, A. Shah, D., Hartikainen, K., Singh, A. Kumar, V. and Levine, S. 現実世界のロボット強化学習の材料。
0.82
In International Conference on Learning Representations, 2020a. International Conference on Learning Representations, 2020a(英語) 0.43
Zhu, Z., Lin, K., Dai, B., and Zhou, J. Off-policy imitation learning from observations. Zhu, Z., Lin, K., Dai, B., Zhou, J. 観察から学ぶ非政治模倣 0.65
In the Thirty-fourth Annual Conference on Neural Information Processing Systems (NeurIPS 2020), 2020b. 第34回神経情報処理システム年次大会(NeurIPS 2020, 2020b)に参加して 0.79
Ziebart, B. D., Maas, A. L., Bagnell, J. A., Dey, A. K., et al Maximum entropy inverse reinforcement learning. Ziebart, B. D., Maas, A. L., Bagnell, J. A., Dey, A. K., et al Maximum entropy inverse reinforcement learning。 0.46
In Aaai, volume 8, pp. 1433–1438. aaai, volume 8, pp. 1433–1438。 0.82
Chicago, IL, USA, 2008. シカゴ、イル、アメリカ、2008年。 0.63
Rivest, R. L. and Schapire, R. E. Inference of finite automata using homing sequences. R. L. and Schapire, R. E. ホーミング列を用いた有限オートマトンの推定 0.65
Information and Computation, 103(2):299–347, 1993. 情報と計算、1993年103(2):299-347。 0.75
Ziebart, B. D., Bagnell, J. A., and Dey, A. K. Modeling interaction via the principle of maximum causal entropy. Ziebart, B. D., Bagnell, J. A., and Dey, A. K. Modeling Interaction through the principle of maximum causal entropy。
訳抜け防止モード: Ziebart, B. D., Bagnell, J. A., Dey A.K. 最大因果エントロピーの原理による相互作用のモデル化
0.85
In ICML, 2010. 2010年、ICML。 0.70
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
Figure 7. Performance comparison of r(s, a) = log(C(s)) and r(s, a) = − log(1 − C(s)) on (left) the table-top organization environment, (center) the sawyer door closing environment, and (right) the sawyer peg environment. 図7。 r(s, a) = log(C(s)) と r(s, a) = − log(1 − C(s)) のパフォーマンス比較(左) テーブルトップ組織環境、(中央) ソーヤードア閉鎖環境、(右) ソーヤーペグ環境。 0.69
Plots show learning curves with mean and standard error over 5 random seeds. プロットは5つのランダムシードの平均値と標準値の学習曲線を示す。 0.66
A. MEDAL Implementation MEDAL is implemented with TF-Agents, built on SAC as the base RL algorithm. A. MEDAL の実装 MEDAL は TF-Agents で実装されており、ベースRL アルゴリズムとして SAC 上に構築されている。 0.55
Hyperparameters follow the default values: initial collect steps: 10,000, batch size sampled from replay buffer for updating policy and critic: 256, steps collected per iteration: 1, trained per iteration: 1, discount factor: 0.99, learning rate: 3e − 4 (for critics, actors, and discriminator). 初期収集ステップ:10,000、バッチサイズをリプレイバッファからサンプリングしてポリシと批判を更新する:256、イテレーション毎に収集するステップ:1、イテレーション毎に訓練されたステップ:1、ディスカウントファクタ:0.99、学習率:3e − 4(批評家、俳優、差別者)。
訳抜け防止モード: ハイパーパラメータはデフォルト値に従う : 初期収集ステップ : 10,000, ポリシーとレビューを更新するためにreplay bufferからサンプリングされたバッチサイズ : 256,イテレーション毎のステップ収集 : 1 単回学習: 1, 割引率: 0.99, 学習率: 3e − 4 (批評家用, 批評家用) 俳優、差別者)。
0.79
The actor and critic network were parameterized as neural networks with two hidden layers each of size 256. アクターと批評家ネットワークは、それぞれ256サイズの2つの隠れた層を持つニューラルネットワークとしてパラメータ化された。 0.61
For the discriminator, it was parameterized as a neural network with one hidden layer of size 128. 判別器では、サイズ128の隠蔽層を持つニューラルネットワークとしてパラメータ化された。 0.80
This discriminator is updated once every 10 collection steps for all environments. この識別器は、すべての環境に対して10ステップ毎に更新される。 0.59
Due to a small positive dataset, mixup (Zhang et al , 2017) is used as a regularization technique on the discriminator for all environments. 小さな正のデータセットのため、すべての環境における判別器の正規化手法としてmixup(Zhang et al , 2017)が使用される。 0.72
Additionally, the batch size for the discriminator is set to 800 for all environments as this significantly larger value was found to stabilize training. さらに、識別器のバッチサイズは、トレーニングの安定化のために非常に大きな値が見つかったため、すべての環境において800に設定されている。
訳抜け防止モード: さらに、判別器のバッチサイズは、すべての環境において800に設定される。 この大きな価値が訓練の安定化に寄与した。
0.62
Another choice that improved the stability was the choice of reward function for the backward controller: both r(s, a) = − log(1 − C(s)) and r(s, a) = log(C(s)) preserve the saddle point (ρ∗, 0.5) for the optimization in Equation 3. 安定性を改善したもう一つの選択肢は、後方コントローラに対する報酬関数の選択であった: r(s, a) = − log(1 − C(s)) と r(s, a) = log(C(s)) は、方程式3の最適化のためにサドル点 (ρ∗, 0.5) を保持する。 0.89
However, as can be seen in Figure 7, r(s, a) = − log(1 − C(s)) leads to both better and stable performance. しかし、図7に示すように、r(s, a) = − log(1 − C(s)) はより良い性能と安定した性能をもたらす。 0.77
We hypothesize that this is due to smaller gradients of the − log(1 − C(s)) when C(s) ≤ 0.5, which is where the discriminator is expected to be for most of the training as the discriminator can easily distinguish between expert states and those of the backward policy to begin with. これは C(s) ≤ 0.5 のときの − log(1 − C(s)) の勾配が小さいためである、と仮定する。
訳抜け防止モード: 我々は、これは C(s ) ≤ 0.5 のとき − log(1 − C(s ) ) のより小さな勾配によるものであると仮定する。 そこでは差別者が 差別者としての訓練は 専門家の国家と、.NETから始まる後方政策の国家を区別するのが容易です。
0.72
B. Environments The environment details can be found in (Sharma et al , 2022). B.環境 環境の詳細はSharma et al , 2022)に記載されている。 0.83
We briefly describe environments for completeness. 完全性のための環境を簡潔に説明する。 0.54
For every environment, HT defines the number of steps after which the environment is reset to a state s0 ∼ ρ0, and HE defines the evaluation horizon over which the return is computed for deployed policy evaluation: table-top organization: Table-top organization is run with a training horizon of HT = 200, 000 and HE = 200. すべての環境について、HTは環境が状態 s0 > ρ0 にリセットされた後のステップの数を定義し、HEはデプロイされたポリシー評価のためにリターンが計算される評価の地平線を定義します。
訳抜け防止モード: 環境ごとに。 HT は環境が状態 s0 > ρ0 にリセットされた後のステップ数を定義する。 HEは評価の地平線を定義します 返却は、配備された政策評価のために計算される 表 - トップ組織 表 - トップ組織はHT = 200,000,HE = 200のトレーニング地平線で実行されます。
0.72
The sparse reward function is given by: スパース報酬関数は次のとおりである。 0.71
r(s, g) = I((cid:107)s − g(cid:107)2 ≤ 0.2), r(s, g) = I((cid:107)s − g(cid:107)2 ≤ 0.2) 0.48
where I denotes the indicator function. ここでインジケータ関数を示します。 0.63
The environment has 4 possible goal locations for the mug, and goal location for the gripper is in the center. 環境にはマグカップの4つの目標位置があり、グリッパーのゴール位置は中央にある。 0.62
EARL provides a total of 12 forward demonstrations and 12 backward demonstrations (3 per goal). EARLは合計12回の前方デモと12回の後方デモ(ゴール当たり3回)を提供する。 0.68
sawyer door closing: Sawyer door closing is run with a training horizon of HT = 200, 000 and an episode horizon of HE = 300. ソーヤードア閉口:ソーヤードア閉口はHT = 200,000の訓練地平線とHE = 300のエピソード地平線で実行される。 0.59
The sparse reward function is: スパース報酬関数は、 0.46
r(s, g) = I((cid:107)s − g(cid:107)2 ≤ 0.02), r(s, g) = i((cid:107)s − g(cid:107)2 ≤ 0.02) である。 0.86
where I again denotes the indicator function. ここでも再びインジケータ関数を示します。 0.67
The goal for the door and the robot arm is the closed door position. ドアとロボットアームのゴールは閉じたドアの位置である。 0.67
EARL provides 5 forward demonstrations and 5 backward demonstrations. EARLは5つの前方デモと5つの後方デモを提供する。 0.54
sawyer peg: Sawyer peg is run with a training horizon of HT = 100, 000 and an episode horizon of HE = 200. sawyer peg: Sawyer pegはHT = 100,000のトレーニング地平線とHE = 200のエピソード地平線で実行されます。 0.83
The その... 0.20
英語(論文から抽出)日本語訳スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning 非正規強化学習に対する状態分布マッチングアプローチ 0.75
sparse reward function is: r(s, g) = I((cid:107)s − g(cid:107)2 ≤ 0.05), スパース報酬関数は r(s, g) = I((cid:107)s − g(cid:107)2 ≤ 0.05) 0.46
where I again denotes the indicator function. ここでも再びインジケータ関数を示します。 0.67
The goal for the peg is to be placed in the goal slot. pegのゴールはゴールスロットに置かれます。 0.49
EARL provides 10 forward demonstrations and 20 backward demonstrations. EARLは10の前方デモと20の後方デモを提供する。 0.63
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。