While reinforcement learning (RL) provides a framework for learning through
trial and error, translating RL algorithms into the real world has remained
challenging. A major hurdle to real-world application arises from the
development of algorithms in an episodic setting where the environment is reset
after every trial, in contrast with the continual and non-episodic nature of
the real-world encountered by embodied agents such as humans and robots. Prior
works have considered an alternating approach where a forward policy learns to
solve the task and the backward policy learns to reset the environment, but
what initial state distribution should the backward policy reset the agent to?
Assuming access to a few demonstrations, we propose a new method, MEDAL, that
trains the backward policy to match the state distribution in the provided
demonstrations. This keeps the agent close to the task-relevant states,
allowing for a mix of easy and difficult starting states for the forward
policy. Our experiments show that MEDAL matches or outperforms prior methods on
three sparse-reward continuous control tasks from the EARL benchmark, with 40%
gains on the hardest task, while making fewer assumptions than prior works.
A State-Distribution Matching Approach to Non-Episodic Reinforcement
非エポゾディック強化に対する状態分布マッチング手法
0.61
Learning Archit Sharma * 1 Rehaan Ahmad * 1 Chelsea Finn 1
学習 Archit Sharma * 1 Rehaan Ahmad * 1 Chelsea Finn 1
0.59
2 2 0 2 y a M 1 1
2 2 0 2 y a m 1 1 である。
0.54
] G L . s c [
] G L。 sc [
0.47
1 v 2 1 2 5 0
1 v 2 1 2 5 0
0.43
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract While reinforcement learning (RL) provides a framework for learning through trial and error, translating RL algorithms into the real world has remained challenging.
A major hurdle to realworld application arises from the development of algorithms in an episodic setting where the environment is reset after every trial, in contrast with the continual and non-episodic nature of the realworld encountered by embodied agents such as humans and robots.
Prior works have considered an alternating approach where a forward policy learns to solve the task and the backward policy learns to reset the environment, but what initial state distribution should the backward policy reset the agent to?
Assuming access to a few demonstrations, we propose a new method, MEDAL, that trains the backward policy to match the state distribution in the provided demonstrations.
Our experiments show that MEDAL matches or outperforms prior methods on three sparse-reward continuous control tasks from the EARL benchmark, with 40% gains on the hardest task, while making fewer assumptions than prior works.
Unfortu- *Equal contribution 1Stanford University, CA, USA.
不運 ※コントリビューション1Stanford University, CA, USA等。
0.46
Correspondence to: Archit Sharma <architsh@stanford.ed u>, Rehaan Ahmad <rehaan@stanford.edu& gt;.
Archit Sharma <architsh@stanford.ed u>, Rehaan Ahmad <rehaan@stanford.edu& gt;
0.37
Preprint. Copyright 2022 by the author(s).
プレプリント。 著作者による著作権2022。
0.60
Figure 1. An overview of our proposed method MEDAL (right) contrasting it with forward-backward RL (Han et al , 2015; Eysenbach et al , 2017) (left).
図1に示す。 提案手法の概観 (右) は, 前向きのRL (Han et al , 2015; Eysenbach et al , 2017) と対比する。
0.61
MEDAL trains a backward policy πb to pull the agent back to the state distribution defined by the demonstrations, enabling the forward policy πf to the learn the task efficiently in contrast to FBRL that retrieves the agent to the initial state distribution before every trial of πf .
nately, the predominant emphasis on episodic learning represents a departure from the continual non-episodic nature of the real-world, which presents multiple technical challenges.
First, episodic training undermines the autonomy of the learning agent by requiring repeated extrinsic interventions to reset the environment after every trial, which can be both time-consuming and expensive as these interventions may have to be conducted by a human.
Second, episodic training from narrow initial state distributions can lead to less robust policies that are reliant on environment resets to recover; e g Sharma et al (2022) show that policies learned in episodic settings with narrow initial state distributions are more sensitive to perturbations than those trained in non-episodic settings.
e g Sharma et al (2022) は、狭い初期状態分布で学習されたポリシーは、非エピソジックな設定で訓練されたポリシーよりも摂動に敏感であることを示した。
0.38
Prior works have found that conventional RL algorithms substantially depreciate in performance when applied in nonepisodic settings (Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022).
従来のRLアルゴリズムは、非韻律的設定(Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022)に適用すると、性能が著しく低下することがわかった。
0.80
Why do such algorithms struggle to learn in non-episodic, autonomous RL (ARL) settings?
このようなアルゴリズムは、なぜ非正規自律rl(arl)環境で学ぶのに苦労するのか?
0.62
Resetting the environment after every single episode allows for natural repetition: the agent can repeatedly practice the task under a narrow set of initial conditions to incrementally improve the policy.
For example, an autonomous robot that is practicing how to close a door will also need to learn how to open a door.
例えば、ドアを閉める方法を練習している自律ロボットは、ドアの開け方を学ぶ必要がある。
0.69
Several recent works learn a backward policy to enable the main forward policy to practice the task: for example, Han et al (2015); Eysenbach et al (2017) propose a backward policy that learns to match the initial state distribution.
いくつかの最近の研究は、メインフォワードポリシーがタスクを実践できるようにするために、後方ポリシーを学習している。例えば、Han et al (2015)、Eysenbach et al (2017) は、初期状態の分布に合わせて学習する後方ポリシーを提案する。 訳抜け防止モード: 最近のいくつかの研究は、後進政策を学ぶ メインの政策でその任務を遂行する 例えば、han et al (2015) です。 eysenbach et al (2017) は、初期状態分布に適合するように学習する後進政策を提案する。
0.78
However, unlike the episodic setting, the agent can practice the task from any initial state, and not just the narrow initial state distribution that is usually provided by resets.
Can the backward policy create starting conditions that enable the forward policy to improve efficiently?
後方政策は、前進政策を効率的に改善できるスタート条件を創出できるのか?
0.83
It could be useful for the agent to try the task both from “easy” states that are close to the goal and harder states that are representative of the starting conditions at evaluation.
One of the results show that the closer the starting state distribution is to the state distribution of the optimal policy ρ∗, the faster the policy moves toward the optimal policy π∗.
While an oracle access to ρ∗ is rarely available, we often have access to a modest set of demonstrations.
ρ∗へのオラクルアクセスはめったにないが、デモの控えめなセットにアクセスできることが多い。
0.59
In this work, we aim to improve autonomous RL by learning a backward policy that matches the starting state distribution to the state distribution observed in the demonstrations.
An intuitive representation of the algorithm is shown in Figure 1.
このアルゴリズムの直感的な表現は図1に示されます。
0.72
The primary contribution of our work is an autonomous RL algorithm Matching Expert Distributions for Autonomous Learning (MEDAL), which learns a backward policy that matches the state distribution of a small set of demonstrations, in conjunction with a forward policy that optimizes the task reward.
私たちの研究の主な貢献は、自律学習のためのエキスパート分布(medal:expert distributions for autonomous learning)にマッチする自律的rlアルゴリズムです。 訳抜け防止モード: 私たちの研究の主な貢献は、自律的なRLアルゴリズムであるMEDAL(Matching Expert Distributions for Autonomous Learning)である。 それは、小さなデモの集合の状態分布と一致する後方ポリシーを学ぶ。 タスク報酬を最適化する フォワードポリシーと共に
0.72
We use a classification based approach that implicitly minimizes the distance between the state distribution of the backward policy and the state distribution in the demonstrations without requiring the density under either distribution.
In Section 5, we empirically analyze the performance of MEDAL on the Environments for Autonomous RL (EARL) benchmark (Sharma et al , 2022).
第5節では、自動RL(EARL)ベンチマーク(Sharma et al , 2022)におけるMEDALの性能を実証的に分析した。
0.67
We find that MEDAL matches or outperforms competitive baselines in all of the sparse-reward environments, with a more than a 40% gain in success rate on the hardest task where all other comparisons fail completely.
Our ablations additionally indicate the importance of matching the state distribution in the demonstrations, providing additional empirical support for the hypothesis that the expert state distribution constitutes a good starting state distribution for learning a task.
Using additional policies to enable autonomous learning goes back to the works of (Rivest & Schapire, 1993) in context of finite state automaton, also referred to as “homing strategies” in (Even-Dar et al , 2005) in context of POMDPs.
自律学習を可能にするための追加ポリシーの使用は、有限状態オートマトン(英語版)の文脈における(rivest & schapire, 1993)の仕事に戻り、pomdpsの文脈では(even-dar et al , 2005)「ホーミング戦略」とも呼ばれる。
0.69
More recently, in context of continuous control, several works propose autonomous RL methods targeting different starting distributions to learn from: Han et al (2015); Eysenbach et al (2017) match the initial state distribution, Zhu et al (2020a) leverage state-novelty (Burda et al , 2018) to create new starting conditions for every trial, and Sharma et al (2021) create a curriculum of starting states based on the performance of the forward policy to accelerate the learning.
より最近では、継続的制御の文脈において、さまざまな開始分布を対象とする自律的なRL手法が提案されている。 Han et al (2015)、Eysenbach et al (2017)、Zhu et al (2020a)、ステートノベルティ(Burda et al , 2018)、Sharma et al (2021)、学習を加速するために前方ポリシーのパフォーマンスに基づいて開始状態のカリキュラムを作成する。
0.65
In addition, (Xu et al , 2020; Lu et al , 2020) leverage ideas from unsupervised skill discovery (Gregor et al , 2016; Eysenbach et al , 2018; Sharma et al , 2019; Hazan et al , 2019; Campos et al , 2020), with the former using it to create an adversarial initial state distribution and the latter to tackle non-episodic lifelong learning with a non-stationary task-distribution.
さらに(Xu et al , 2020; Lu et al , 2020)は、教師なしスキル発見(Gregor et al , 2016; Eysenbach et al , 2018; Sharma et al , 2019; Hazan et al , 2019; Campos et al , 2020)のアイデアを活用する。 訳抜け防止モード: さらに(Xu et al, 2020; Lu et al, 2020)は、教師なしスキル発見(Gregor et al, 2016; Eysenbach et al)のアイデアを活用している。 2018年、Sharma et al, 2019年、Hazan et al, 2019年、Campos et al, 2020年) 前者はそれを使って 敵の初期状態の分布を作り そして後者は、非定常的なタスクによる非叙事的な生涯学習に取り組む。
0.75
Our work proposes a novel algorithm MEDAL that, unlike these prior works, opts to match the starting distribution to the state distribution of demonstrations.
Value-accelerated Persistent RL (VaPRL) (Sharma et al , 2021) also considers the problem of autonomous RL with a few initial demonstrations.
価値加速型永続RL (VaPRL) (Sharma et al , 2021) もまた、いくつかの最初のデモンストレーションで自律RLの問題を考える。
0.71
Unlike VaPRL, our algorithm does not rely on relabeling transitions with new goals (Andrychowicz et al , 2017), and thus does not require access to the functional form of the reward function, eliminating the need for additional hyperparameters that require task-specific tuning.
vaprlとは異なり、このアルゴリズムは新たな目標(andrychowicz et al , 2017)によるrelabeling遷移に依存しないため、報酬関数の機能形式へのアクセスは不要であり、タスク固有のチューニングを必要とする追加のハイパーパラメータは不要である。
0.77
A simple and taskagnostic ARL method would accelerate the development of autonomous robotic systems, the benefits of such autonomy being demonstrated by several recent works (Chatzilygeroudis et al , 2018; Gupta et al , 2021; Smith et al , 2021; Ha et al , 2020; Bloesch et al , 2022).
単純でタスクに依存しないarl法は自律的なロボットシステムの開発を加速し、このような自律性の利点を最近のいくつかの研究で実証している(chatzilygeroudis et al , 2018; gupta et al , 2021; smith et al , 2021; ha et al , 2020; bloesch et al , 2022)。
0.75
Distribution Matching in RL.
RLにおける分布マッチング
0.91
Critical to our method is matching the state distribution of the demonstrations.
我々の方法にとって重要なのは、デモの状態分布の一致である。
0.56
Such a distribution matching perspective is often employed in inverse RL (Ng et al , 2000; Ziebart et al , 2008; 2010; Finn et al , 2016) and imitation learning (Ghasemipour et al , 2020; Argall et al , 2009) or to encourage efficient exploration (Lee et al , 2019).
このような分布マッチングの観点は、逆 RL (Ng et al , 2000; Ziebart et al , 2008; 2010; Finn et al , 2016) や模倣学習 (Ghasemipour et al , 2020; Argall et al , 2009) や効率的な探索を促進するためにしばしば用いられる。 訳抜け防止モード: そのような分布マッチングの観点は、しばしば逆 RL (Ng et al, 2000 ; Ziebart et al,) で用いられる。 2008年; 2010年; Finn et al, 2016年)と模倣学習(Ghasemipour et al, 2020 ; Argall et al, 2009 ) あるいは効率的な探査を促進する (Lee et al, 2019 )。
0.89
More recently, several works have leveraged implicit distribution matching by posing a classification problem, pioneered in Goodfellow et al (2014), to imitate demonstrations (Ho & Ermon, 2016; Baram et al , 2017; Kostrikov et al , 2018; Rafailov et al , 2021), to imitate sequences of observations (Torabi et al , 2019; Zhu et al , 2020b), or to learn reward functions for goal-reaching (Fu et al , 2018; Singh et al , 2019).
最近では、Goodfellow et al (2014)で先駆的な分類問題(Ho & Ermon, 2016; Baram et al , 2017; Kostrikov et al , 2018; Rafailov et al , 2021)を模倣して、観測のシーケンス(Torabi et al , 2019; Zhu et al , 2020b)を模倣したり、ゴール獲得のための報酬関数(Fu et al , 2018; Singh et al , 2019)を学ぶために、暗黙の分布マッチングを活用している。
0.79
Our work employs a similar discriminator-based approach to encourage the state distribution induced by the policy to match that of the demonstrations.
Prior works have considering shaping rewards using demonstrations (Brys et al , 2015), pre-training the policy (Rajeswaran et al , 2017), using behavior cloning loss as a regularizer for policy gradients (Rajeswaran et al , 2017) and Q-learning (Nair et al , 2018), and initializing the replay buffer (Nair et al , 2018; Vecerik et al , 2017; Hester et al , 2018).
以前の研究では、デモ(brys et al , 2015)、ポリシーの事前トレーニング(rajeswaran et al , 2017)、ポリシー勾配の正規化(rajeswaran et al , 2017)、q-learning(nair et al , 2018)、リプレイバッファの初期化(nair et al , 2018; vecerik et al , 2017; hester et al , 2018)による報酬形成を検討している。
0.69
MEDAL leverages demonstrations to accelerate nonepisodic reinforcement learning by utilizing demo distribution to create initial conditions for the forward policy.
We use the ARL framework for non-episodic learning defined in Sharma et al (2022), which we briefly summarize here.
sharma et al (2022) で定義された非正規学習にarlフレームワークを使用し、ここで簡単に要約する。
0.66
Consider a Markov decision process M ≡ (S,A, p, r, ρ0), where S denotes the state space, A denotes the action space, p : S × A × S (cid:55)→ R≥0 denotes the transition dynamics, r : S × A (cid:55)→ R denotes the reward function and ρ0 denotes the initial state distribution.
ここで s は状態空間、a は作用空間、p : s × a × s (cid:55)→ r≥0 は遷移ダイナミクス、r : s × a (cid:55)→ r は報酬関数、ρ0 は初期状態分布を表す。 訳抜け防止モード: マルコフ決定過程 M > (S, A, A) を考える。 p, r, ρ0 ) ここで S は状態空間を表す。 A はアクション空間を表す。 p : S × A × S ( cid:55)→ R≥0 は遷移力学を表す。 r : S×A cid:55)→ R は報酬関数を表す ρ0 は初期状態分布を表す。
0.86
The learning algorithm A is defined as A : {si, ai, si+1, ri}t i=0 (cid:55)→ {at, πt}, which maps the transitions collected in the environment until time t to an action at and its best guess at the optimal policy πt : S × A (cid:55)→ R≥0.
学習アルゴリズムaは、a: {si, ai, si+1, ri}t i=0 (cid:55)→ {at, πt} と定義され、t までの環境で収集された遷移を作用 at にマッピングし、最適な政策 πt : s × a (cid:55)→ r≥0 において最適な推測を行う。 訳抜け防止モード: 学習アルゴリズム a は a : si, si として定義される。 ai, si+1, ri}t i=0 (cid:55)→ { at, πt }, 時間tまで 環境に集められた遷移を 最適政策 πt : s × a ( cid:55)→ r≥0 における最善の推測である。
0.87
First, the initial state is sampled exactly once (s0 ∼ ρ0) at the beginning of the interaction and the learning algorithm interacts with the environment through the actions at till t → ∞.
まず、初期状態は相互作用の開始時に正確に1回(s0 > ρ0)サンプリングされ、学習アルゴリズムは t → ∞ までの作用を通して環境と相互作用する。
0.82
This is the key distinction from an episodic RL setting where the environment resets to a state from the initial state distribution after a few steps.
Second, the action taken in the environment does not necessarily come from πt, for example, a backward policy πb may generate the action taken in the environment.
ARL defines two metrics: Continuing Policy Evaluation measures the reward accumulated by A over the course of training, defined as C(A) = limh→∞ 1 t=0 r(st, at) and Deployed Policy Evaluation metric measures how quickly an algorithm improves the output policy πt at the task defined by the reward function r, defined as:
c(a) = limh→∞ 1 t=0 r(st, at)と定義され、デプロイされたポリシー評価指標は、アルゴリズムが報酬関数rで定義されたタスクにおいて、出力ポリシーπtをいかに迅速に改善するかを測定する。 訳抜け防止モード: ARLは2つの指標を定義している。 継続的な政策評価は、トレーニングの過程でAが蓄積した報酬を測定する。 C(A ) = limh→∞ 1 t=0 r(st, at ) and Deployed Policy Evaluation Metricsは、アルゴリズムが報酬関数 r で定義されたタスクにおける出力ポリシ πt をいかに早く改善するかを測定する。
0.77
E(cid:104)(cid:80)h
E(cid:104)(cid:80)h
0.41
(cid:105) h
(定員105名) へっ
0.52
st+1 ∼ p(· | st, at) and π∗ ∈ arg maxπ J(π).
st+1 > p(· | st, at) および π∗ ∈ arg maxπ J(π) である。
0.85
The goal for an algorithm A is to minimize D(A), that is to bring J(πt) close to J(π∗) in the least number of samples possible.
アルゴリズム A の目標は D(A) を最小化することであり、J(πt) をできるだけ多くのサンプルに J(π∗) に近づけることである。
0.80
Intuitively, minimizing D(A) corresponds to maximizing the area under the curve for J(πt) versus t.
直観的には、D(A) の最小化は J(πt) 対 t の曲線の下での面積の最大化に対応する。
0.63
C(A) corresponds to the more conventional average-reward reinforcement learning.
c(a) はより一般的な平均-回帰強化学習に対応する。
0.68
While algorithms are able to accumulate large rewards during training, they do not necessarily recover the optimal policy in non-episodic settings (Zhu et al , 2020a; Co-Reyes et al , 2020; Sharma et al , 2022).
アルゴリズムはトレーニング中に大きな報酬を蓄積できるが、非エポゾディックな設定(Zhu et al , 2020a; Co-Reyes et al , 2020; Sharma et al , 2022)では必ずしも最適なポリシーを回復しない。
0.85
In response, Sharma et al (2022) introduce D(A) to explicitly encourage algorithms to learn task-solving behaviors and not just accumulate reward through training.
それに応えて、sharma et al (2022)はd(a)を導入して、トレーニングを通じて報酬を蓄積するだけでなく、タスク解決行動を学ぶアルゴリズムを明示的に推奨している。
0.57
Imitation Learning via Distribution Matching.
分布マッチングによる模倣学習。
0.78
Generative Adversarial Networks (Goodfellow, 2016) pioneered implicit distribution matching for distributions where likelihood cannot be computed explicitly.
Given a dataset of samples {xi}N i=1, where xi ∼ p∗(·) for some target distribution p∗ over the data space X , generative distribution pθ(·) can be learned through the following minimax optimization:
サンプル {xi}n i=1 のデータセットが与えられると、データ空間 x 上のある対象分布 p∗ に対して xi は p∗(·) であり、生成分布 pθ(·) は以下のミニマックス最適化によって得られる。
0.83
D max Ex∼p∗ [log D(x)] + Ex∼pθ [log(1 − D(x))] (2) min pθ where D : X (cid:55)→ [0, 1] is discriminator solving a binary classification problem.
D マックス ここで D : X (cid:55)→ [0, 1] は二項分類問題を解く判別器である。 訳抜け防止モード: D マックス ex-p∗ [ log d(x ) ] + ex-pθ [ log(1 − d(x ) ) ] ( 2 ) min pθ である。 d : x ( cid:55)→ [ 0, 1 ] は二分分類問題を解く判別子である。
0.62
This can be shown to minimize the Jensen-Shannon divergence, that is DJS(pθ || p∗) (Goodfellow et al , 2014; Nowozin et al , 2016) by observing that the Bayes-optimal classifier satisfies D∗(x) = p∗(x)+pθ(x) (assuming that prior probability of true data and fake data is balanced).
これはdjs(pθ || p∗) (goodfellow et al , 2014; nowozin et al , 2016) であるjensen-shannonの分岐を最小化するために、ベイズ最適分類器は d∗(x) = p∗(x)+pθ(x) を満たす(真のデータと偽データの前の確率が均衡していると仮定して)。
0.85
Because we do not require an explicit density under the generative distribution and only require the ability to sample the distribution, this allows construction of imitation learning methods such as GAIL (Ho & Ermon, 2016) which minimizes DJS(ρπ(s, a) || ρ∗(s, a)), where the policy π is rolled out in the environment starting from initial state distribution ρ0 to generate samples from the state-action distribution ρπ(s, a) and ρ∗(s, a) is the target state-action distribution of the demonstrations.
Because we do not require an explicit density under the generative distribution and only require the ability to sample the distribution, this allows construction of imitation learning methods such as GAIL (Ho & Ermon, 2016) which minimizes DJS(ρπ(s, a) || ρ∗(s, a)), where the policy π is rolled out in the environment starting from initial state distribution ρ0 to generate samples from the state-action distribution ρπ(s, a) and ρ∗(s, a) is the target state-action distribution of the demonstrations. 訳抜け防止モード: 生成分布の下では明示的な密度を必要としないので DJS(ρπ(s))を最小化するGAIL(Ho & Ermon, 2016)のような模倣学習手法を構築することができる。 a) || ρ∗(s, a ) ) 初期状態分布 ρ0 から始まる環境において、ポリシー π がロールアウトされる。 州からサンプルを採取し - 作用分布 ρπ(s, a ) と ρ∗(s, a ) が対象状態である。
0.80
p∗(x) 4. Matching Expert Distributions for Autonomous Learning (MEDAL)
p∗(x) 4.自律学習(medal)のためのエキスパート分布のマッチング
0.62
Several prior works demonstrate the ineffectiveness of standard RL methods in non-episodic settings (Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022).
いくつかの先行研究は、非経済的な環境での標準RL法の有効性を実証している(Co-Reyes et al , 2020; Zhu et al , 2020a; Sharma et al , 2022)。
0.66
Adding noise to actions, for example -greedy in DQN (Mnih et al , 2015) or Gaussian noise in SAC (Haarnoja et al , 2018)), can be sufficient for exploration in episodic setting where every trial starts from a narrow initial state distribution.
DQN (Mnih et al , 2015) や SAC (Haarnoja et al , 2018) のガウスノイズのような行動にノイズを加えることは、全ての試行が狭い初期状態分布から始まるエピソード環境での探索に十分である。
0.71
However, such an approach becomes ineffective in non-episodic settings because the same policy is expected to both solve the task and
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
where J(π) = E(cid:104)(cid:80)∞
ここで j(π) = e(cid:104)(cid:80)∞
0.79
(cid:105) j=0 γjr(sj, aj)
(定員105名) j=0 γjr(sj, aj)
0.47
, s0 ∼ ρ0, at ∼ π(· | st),
π(· | st) において s0 を ρ0 とする。
0.86
D(A) = J(π∗) − J(πt),
D(A) = J(π∗) − J(πt)
0.42
(1) ∞(cid:88)
(1) ∞(cid:88)
0.42
t=0
t=0
0.29
英語(論文から抽出)
日本語訳
スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
be sufficiently exploratory.
十分に探索的になる。
0.48
As a result, a common solution in non-episodic autonomous RL settings is to learn another policy in addition to the forward policy πf that solves the task (Han et al , 2015; Eysenbach et al , 2017; Zhu et al , 2020a): a backward policy πb that targets a set of states to explore solving the task from.
結果として、非正規の自律的なrl設定における一般的な解決策は、タスクを解決する前方方針 πf に加えて、別のポリシーを学ぶことである(han et al , 2015; eysenbach et al , 2017; zhu et al , 2020a): 課題を解決するための一連の州を対象とする後方政策 πb である。
0.74
More precisely, the forward policy πf learns to solve the task from a state sampled from ρb, the marginal state distribution of πb.
Informally, the result states that the upper bound on the difference between the optimal performance and that of policy π is proportional to (cid:107) ρ∗(s) µ (cid:107)∞, where ρ∗ is the state distribution of the optimal policy and µ is the initial state distribution.
This suggests that an initial state distribution µ that is close to the optimal state distribution ρ∗ would enable efficient learning.
このことは、最適状態分布 ρ∗ に近い初期状態分布 μ が効率的な学習を可能にすることを示唆する。
0.82
Intuitively, some initial states in the optimal state distribution would simplify the exploration by being closer to high reward states, which can be bootstrapped upon to learn faster from the harder initial states.
To empirically verify the theoretical results, we compare the learning speed of RL algorithm in the episodic setting on tabletop organization (environment details in Section 5) when starting from
(a) the standard initial state distribution, that is s0 ∼ ρ0, versus
(a)標準初期状態分布、すなわち s0 を ρ0 と対する。
0.80
(b) states sampled from the stationary distribution of the optimal policy, that is s0 ∼ ρ∗(s).
(b) 最適政策の定常分布からサンプリングされた状態は、s0, ρ∗(s) である。
0.76
We find in Figure 2 that the latter not only improves the learning speed, but also improves the performance by nearly 18%.
図2では、後者は学習速度を向上させるだけでなく、パフォーマンスを18%近く向上させる。
0.69
4.2. Resetting to Match the Expert State Distribution
4.2. エキスパート状態分布に適合するリセット
0.50
Figure 2. Comparison of sampling initial states s0 from the state distribution of the optimal policy ρ∗, with sampling the initial state from the default distribution ρ0 in the episodic setting.
The episodic return is computed by initializing the agent at s0 ∼ ρ0 in both the cases.
エピソディックリターンは、どちらのケースでも s0 でエージェントを初期化することで計算される。
0.64
The former improves both the sample efficiency and the performance of the final policy.
前者は、サンプル効率と最終的なポリシーのパフォーマンスの両方を改善します。
0.74
4.1. Finding Better Starting States
4.1. より良いスタート状態を見つける
0.46
In episodic settings, πf always starts exploring from ρ0, which is the same distribution from which it will be evaluated.
エピソディックな設定では、πf は常に ρ0 から探索を始め、これは評価されるのと同じ分布である。
0.68
A natural objective for πb then is to minimize the distance between ρb and ρ0.
πb の自然な目的は ρb と ρ0 の間の距離を最小化することである。
0.71
And indeed, prior works have proposed this approach (Han et al , 2015; Eysenbach et al , 2017) by learning a backward controller to retrieve the initial state distribution ρ0.
実際、先行研究は、初期状態分布 ρ0 を取得するために後方コントローラを学ぶことによってこのアプローチを提案している(Han et al , 2015; Eysenbach et al , 2017)。
0.76
While the initial state distribution cannot be changed in the episodic setting, πb does not have any restriction to match ρ0 in the autonomous RL setting.
The formal The theoretical and empirical results in the previous section suggest that πf should attempt to solve the task from an initial state distribution that is close to ρ∗(s), thus implying that πb should try to match ρ∗(s).
where C : S (cid:55)→ [0, 1] is a state-space classifier.
C : S (cid:55)→ [0, 1] は状態空間分類器である。
0.87
This optimization is very much reminiscent of implicit distribution matching techniques used in (Goodfellow et al , 2014; Nowozin et al , 2016; Ho & Ermon, 2016; Ghasemipour et al , 2020) when only the samples are available and densities cannot be explicitly measured.
この最適化は(goodfellow et al , 2014; nowozin et al , 2016; ho & ermon, 2016; ghasemipour et al , 2020) サンプルのみが利用可能で密度を明示的に測定できない場合に使用される暗黙の分散マッチング手法をよく思い出させる。
0.81
This can be interpreted as minimizing the Jensen-Shannon divergence DJS(ρb || ρ∗).
これは、Jensen-Shannon発散 DJS (ρb || ρ∗) の最小化と解釈できる。
0.66
Following these prior works, C(s) solves a binary classification where s ∼ ρ∗ has a label 1 and s ∼ ρb has a label 0.
GAIL (Ho & Ermon, 2016) proposes to match the stateaction distribution ρπ(s, a) to that of the expert ρ∗(s, a), that is minimize DJS(ρπ(s, a) || ρ∗(s, a)).
gail (ho & ermon, 2016) は、状態作用分布 ρπ(s, a) をエキスパート ρ∗(s, a) のそれと一致させることを提案し、djs(ρπ(s, a) || ρ∗(s, a)) を最小化する。
0.87
Prior works have considered the problem of imitation learning when state-only observations are available (Torabi et al , 2019; Zhu et al , 2020b) by minimizing Df (ρπ(s, s(cid:48)) || ρ∗(s, s(cid:48))),
従来の研究では、Df(ρπ(s, s(cid:48)) || ρ∗(s, s(cid:48))を最小化することで、状態のみの観測が可能となる場合の模倣学習の問題も検討されている(Torabi et al , 2019; Zhu et al , 2020b)。
0.69
英語(論文から抽出)
日本語訳
スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
where f-divergence enables generalized treatment of different discrepancy measures such KL-divergence of JSdivergence used in prior work (Nowozin et al , 2016).
f-divergence では、kl-divergence of jsdivergence used in prior work (nowozin et al , 2016) のような異なる不一致の処理が一般化されている。
0.54
In contrast to these works, our work proposes to minimize DJS(ρπ(s) || ρ∗(s)).
これらの作品とは対照的に、本研究はdj(ρπ(s) || ρ∗(s))を最小化することを提案する。
0.58
Furthermore, state distribution matching is only used for the backward policy in our algorithm, whereas the forward policy is maximizing return, as we summarize in the next section.
Finally, unlike prior works, the motivation for matching the state distributions is to create an effective initial state distribution for the forward policy πf .
Our experimental results in Section 5.2 suggest that naively extending GAIL to non-episodic settings is not effective, validating the importance of these key differences.
s); s(cid:48) ∼ p(· | s, a), r ← r(s, a); Rf ← Rf ∪ {(s, a, s(cid:48),
s); s(cid:48) の p(· | s, a), r の r(s, a); rf の rf は {(s, a, s(cid:48) である。
0.73
r)}; update πf , Qπf ; a ∼ πb(· |
r)}; 更新 πf , Qπf ; a > πb(· |)
0.94
s); s(cid:48) ∼ p(· | s, a), r ← − log(1 − C(s(cid:48))); Rb ← Rb ∪ {(s, a, s(cid:48),
s); s(cid:48) が p(· | s, a), r が − log(1 − c(s(cid:48))); rb が {(s, a, s(cid:48) である。
0.80
r)}; update πb, Qπb;
r)}; 更新 πb, Qπb;
0.92
else end if // train disriminator every K steps if train-discriminator then
その他 終了 if // train disriminator if train-discriminator
0.60
// sample a batch of positives Sp from the forward demos Df , and a batch of negatives Sn from backward replay buffer Rb Sp ∼ Df , Sn ∼ Rb; update C on Sp ∪ Sn;
// 前方デモdfから正のspのバッチをサンプリングし、後方再生バッファrbsp/df/sn/sn/sn/sn/ snのバッチsnを逆再生バッファrbsp/df/sn/sn/sn/sn/ snで更新する。 訳抜け防止モード: 前行デモのDf, から肯定値のバッチをサンプルする。 そして、後方リプレイバッファRb Sp > Df からの負のバッチ Sn 。 Sn > Rb ; Update C on Sp > Sn ;
0.66
end if s ← s(cid:48); end while
end if s が s(cid:48); end while
0.44
4.3. MEDAL Overview
4.3. MEDALの概要
0.54
With these components in place, we now summarize our proposed algorithm, Matching Expert Distributions for Autonomous Learning (MEDAL).
We simultaneously learn the following components: a forward policy that learns
私たちは同時に、次のコンポーネントを学習します。
0.70
E[(cid:80)∞ maximizing −E[(cid:80)∞
e[(cid:80)∞ 最大化 −e[(cid:80)∞
0.78
to solve the task and will also be used for evaluation, a backward policy that learns creates the initial state distribution for the forward policy by matching the state distribution in the demonstrations, and finally a state-space discriminator that learns to distinguish between the states visited by the backward policy and the states visited in the demonstrations.
MEDAL assumes access to a set of forward demonstrations Df , completing the task from the initial state distribution, and optionally, a set of backward demonstrations Db undoing the task back to the initial state distribution.
The backward policy πb trains to minimize DJS(ρb(s) || ρ∗(s)) which translates into t=0 γt log(1 − C(st+1))] and the replay buffer for the backward policy is initialized using the backward demonstrations Db, if available.
Finally, the statespace discriminator C(s) trains to classify states sampled from the forward demonstrations Df with label 1 and states visited by πb as label
0. Note, we are trying to match the state marginal of policy πb (i.e. ρb(s)) to the optimal state distribution ρ∗(s) (approximated via forward demonstrations Df , not backward demonstrations), thereby motivating the classification problem for C(s).
When interacting with the environment during training, we alternate between collecting samples using πf for a fixed number of steps and collecting samples using πb for a fixed number of steps.
The policies can be updated using any RL algorithm.
ポリシーは任意のRLアルゴリズムを使って更新できる。
0.82
The state-space discriminator C(s) is updated every K steps collected in the environment, with the states visited by πb being labeled as 0 and states in Df labeled as
状態空間判別器C(s) は環境中で収集された K ステップごとに更新され、πb が訪れた状態は 0 とラベル付けされ、Df の状態はラベル付けされる。
0.70
1. The minibatch for updating the parameters of C(s) is balanced to ensure equal samples from ρ∗(s) and ρb(s).
5. Experiments In this section, we empirically analyze the performance of MEDAL to answer to following questions: (1) How does MEDAL compare to other non-episodic, autonomous RL methods?
Environments. To analyze these questions, we consider three sparse-reward continuous-control environments from the EARL benchmark (Sharma et al , 2022).
環境。 これらの問題を解析するために、EARLベンチマーク(Sharma et al , 2022)からスパース逆連続制御環境を3つ検討する。
0.49
The tabletop organization is a simplified manipulation environment where a gripper is tasked to move the mug to one of four coasters.
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
Figure 3. Continuous-control environments from the EARL benchmark: (left) Table-top organization (TO) where a gripper is tasked with moving a mug to one of the four goal locations, (center) sawyer door closing (SD) where the sawyer robot is tasked with closing the door, (right) sawyer peg insertion (SP) where the robot is tasked with picking up the peg and inserting into the goal location.
This is a particularly challenging environment as the autonomously operating robot can push the peg into places where it can be hard to retrieve it back, a problem that is not encountered in the episodic setting as the environment is reset to the initial state distribution every few hundred steps.
Evaluation. We follow the evaluation protocol laid down in the EARL benchmark.
評価 我々はEARLベンチマークに記載された評価プロトコルに従う。
0.60
All algorithms are reset to a state s0 ∼ ρ0 and interact with their environments almost fully autonomously thereon, only being reset to an initial state intermittently after several hundreds of thousands of steps of interaction.
Specifically, we approximate t=0 γtr(st, at)] by averaging the return of the policy over 10 episodes starting from s0 ∼ ρ0, every 10, 000 steps collected in the training environment.
Note, the trajectories collected for evaluation are not provided to the learning algorithm A. For all considered environments, the reward functions are sparse in nature and correspondingly, EARL provides a small set of demonstrations to the algorithms, that correspond to doing and undoing the task (a total of 10-30 demonstrations depending on the environment).
Environment specific details such as reward functions and intermittent resets can be found in Appendix B.
報酬関数や断続リセットといった環境固有の詳細は、Appendix Bで見ることができる。
0.65
J(πt) = E[(cid:80)∞
J(πt) = E[(cid:80)∞
0.50
5.1. Benchmarking MEDAL on EARL
5.1. earLにおけるMEDALのベンチマーク
0.42
First, we benchmark our proposed method MEDAL on the aforementioned EARL environments against state-of-the-art non-episodic ARL methods.
まず,上述したEARL環境上で提案手法のMEDALを,最先端の非エポゾディックARL法と比較した。
0.64
Comparisons. We briefly review the methods benchmarked on EARL, which MEDAL will be compared against: (1) forward-backward RL (FBRL) (Han et al , 2015; Eysenbach et al , 2017), where the backward policy recovers the initial state distribution; (2) value-accelerated persistent RL (VaPRL) (Sharma et al , 2021), where the backward policy
比較。 1) 後進RL(FBRL) (Han et al , 2015; Eysenbach et al , 2017) 後進政策は初期状態の分布を回復する; (2) 価値加速持続RL(VaPRL) (Sharma et al , 2021) 。 訳抜け防止モード: 比較。 MEDAL を EARL でベンチマークした手法を概観する。 (1 ) forward - backward RL (FBRL ) (Han et al。 2015 ; Eysenbach et al, 2017 ) 後戻り政策が初期状態の分布を回復する。 (2)値 - 加速持続RL(VaPRL) (Sharma et al, 2021 ) 後ろ向きの政策は
Table 1. Average return of the final learned policy.
表1。 最終学習方針の平均的な回帰。
0.74
Performance is averaged over 5 random seeds.
種子の平均値は5種以上である。
0.66
The mean and and the standard error are reported, with the best performing entry in bold.
平均と標準エラーが報告され、最もパフォーマンスの良いエントリは太字で表示される。
0.65
For all domains, 1.0 indicates the maximum performance and 0.0 indicates minimum performance.
すべてのドメインに対して、1.0は最大パフォーマンスを示し、0.0は最小パフォーマンスを示す。
0.61
creates a curriculum based on the forward policy’s performance; (3) R3L (Zhu et al , 2020a) has a backward policy that optimizes a state-novelty reward (Burda et al , 2018) to encourage the forward policy to solve the tasks from new states in every trial; (4) na¨ıve RL represents the episodic RL approach where only a forward policy optimizes the taskreward throughout training; and finally (5) oracle RL is the same episodic RL baseline but operating in the episodic setting.
3) r3l (zhu et al , 2020a) は、段階的報酬(burda et al , 2018)を最適化し、すべての試行で新しい州からタスクを解決するための前方政策を奨励する後方方針を持っている。 訳抜け防止モード: 3 ) R3L (Zhu et al, 2020a ) は、国家を最適化する後方政策を持ち、新規性報酬 (Burda et al, 2018 )。 あらゆる裁判で 新国家の課題を 解決するよう前向きの政策を奨励し ; (4 ) na sıve RL はエピソード RL のアプローチを表す。 フォワードポリシーだけが トレーニングを通して タスクを最適化します 最後に (5 ) oracle RL は同じエピソード RL ベースラインであるが、エピソード設定で機能する。
0.72
For a fair comparison, the forward policy for all baselines use SAC (Haarnoja et al , 2018), and the replay buffer is always initialized with the forward demonstrations.
公平な比較として、すべてのベースラインのフォワードポリシーはSAC(Haarnoja et al , 2018)を使用し、リプレイバッファは常にフォワードデモで初期化される。
0.73
Further, the replay buffers for backward policies in FBRL, VaPRL is also initialized with the backward demos.
The replay buffer of the backward policy in R3L is not initialized with backward demos as it will reduce the novelty of the states in the backward demos for the RND reward without the backward policy ever visiting those states.
The baseline is included as a reference to compare performance of baselines in ARL versus the conventional episodic
ベースラインはARLにおけるベースラインのパフォーマンスと従来のエピソードの比較基準として含まれる
0.83
英語(論文から抽出)
日本語訳
スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
Figure 4. Performance of each method on (left) the table-top organization environment, (center) the sawyer door closing environment, and (right) the sawyer peg environment.
Plots show learning curves with mean and standard error over 5 random seeds.
プロットは5つのランダムシードの平均値と標準値の学習曲線を示す。
0.66
setting. It also enables us to compare the performance of conventional RL algorithms when moving from the episodic setting to the ARL setting, by comparing the performance of oracle RL and na¨ıve RL.
• VaPRL relies on relabeling goals which requires the ability to query the reward function for any arbitrary state and goal (as the VaPRL curriculum can task the agent to reach arbitrary goals from the demonstrations).
In a real-world settings, where the reward function often needs to be learned as well (for example from images), these assumptions can be detrimental to their practical application.
The impact of these additional assumptions cannot be overstated, as the primary motivation for the autonomous RL framework is to be representative of real-world RL training.
Results. Table 5.1 shows the performance of the final forward policy, and Figure 4 shows the deployed performance of the forward policy versus the training time for different methods.
MEDAL consistently outputs the best performing final policy, as can be seen in Table 5.1.
MEDALは、表5.1で見られるように、常に最高のパフォーマンスの最終的なポリシーを出力する。
0.55
Particularly notable is the performance on sawyer peg insertion, where the final policy learned by MEDAL gets 40% success rate on average, while all other methods fail completely.
(b) Bringing the agent closer to the state distribution implicit in the demonstrations may be easier to maximize compared to other objectives, for example, retrieving the agent to the initial state distribution.
b) エージェントをデモで暗黙的に状態分布に近づけることは、例えばエージェントを初期状態分布に回収するなど、他の目的よりも容易に最大化することができる。
0.81
Figure 5. MEDAL in comparison to imitation learning methods on tabletop organization and sawyer door closing.
図5。 MEDAL : テーブルトップ組織における模擬学習法とソーヤードア閉鎖法の比較
0.76
Behavior cloning (BC) does not fare well, suggesting the importance of online data collection.
行動クローニング(BC)は、オンラインデータ収集の重要性を示唆している。
0.71
The success of online imitation learning methods such as GAIL in episodic settings does not translate to the non-episodic ARL setting, as indicated by the substantial drop in performance of na¨ıve GAIL compared to oracle GAIL.
In this section, we focus our experiments on the tabletop organization environment.
この節では、実験をテーブルトップ組織環境に焦点を合わせます。
0.76
We first test how a behavior cloning fares (BC).
まず,bc(behavior clones)をテストした。
0.59
Results in Figure 5 suggest that behavior cloning does not do well on tabletop organization, completely failing to solve the task and leaves substantial room for improvement on sawyer door.
This is to be expected as EARL provides only a small number of demonstrations, and errors compounding over time from imperfect policies generally leads to poor performance.
How do imitation learning methods with online data collection fare?
オンラインデータ収集による模倣学習手法について
0.67
We consider an off-policy version of GAIL, Discriminator Actor-Critic (DAC) (Kostrikov et al , 2018), which matches ρπ(s, a) to ρ∗(s, a) with an implicit distribution matching approach similar to ours.
我々はgailのオフポリシー版であるdac (kostrikov et al , 2018) を検討し、ρπ(s, a) と ρ∗(s, a) をマッチングし、我々のものと同じような暗黙の分布マッチングアプローチをとる。
0.73
Assuming that ρπ(s, a) can match ρ∗(s, a), the method should in principle recover the optimal policy – there is nothing specific about GAIL that restricts it to the episodic setting.
ρπ(s, a) が ρ∗(s, a) と一致すると仮定すると、この方法は原則として最適なポリシーを回復すべきである。 訳抜け防止モード: ρπ(s, a) が ρ∗(s, a) と一致すると仮定する。 その方法は原則として最適な政策を回復すべきである。 GAILについて、それがエピソード設定に制限されるものは何もありません。
0.66
However, as the results in Figure 5 suggest, there is a substantial drop in performance when running GAIL in episodic setting (oracle GAIL) versus the non-episodic ARL setting (na¨ıve GAIL).
While such a distribution matching could succeed, na¨ıvely extending the methods to the ARL setting is not as successful, suggesting that it may require an additional policy (similar to the backward policy) to be more effective.
The key element in MEDAL is matching the state distribution of the backward policy to the states in the demonstrations.
MEDALの鍵となる要素は、デモ中の状態と後方ポリシーの状態分布を一致させることである。
0.73
To isolate the role of our proposed scheme of minimizing DJS(ρb || ρ∗), we compare it to an alternate method that minimizes DJS(ρb || ρ0), i.e., matching the initial state distribution ρ0 instead of ρ∗.
This makes exactly one change to MEDAL: instead of sampling positives for the discriminator C(s) from forward demonstrations Df , the positives are sampled from ρ0.
これはちょうど MEDAL に1つの変化をもたらす: 前方デモ Df から判別器 C(s) に対して正をサンプリングする代わりに、正を ρ0 からサンプリングする。
0.68
Interestingly, this also provides a practically realizable implementation of FBRL, as it removes the requirement of the additional reward function required for the learning a backward policy to reach the initial state distribution.
We call this method FBRL + VICE as VICE (Singh et al , 2019) enables learning a goal reaching reward function using a few samples of the goal distribution, in this case the goal distribution for πb being ρ0.
我々はこのFBRL + VICE を VICE (Singh et al , 2019) と呼び、ゴール分布の少数のサンプルを用いてゴール到達報酬関数の学習を可能にし、この場合 πb のゴール分布は ρ0 となる。
0.84
As can be seen in Figure 6, the FBRL + VICE learns slower than MEDAL, highlighting the importance of matching the entire state distribution as done in MEDAL.
図6に示すように、FBRL + VICE は MEDAL よりも遅く学習し、MEDAL で行われている状態分布全体と一致することの重要性を強調している。
0.78
6. Conclusion We propose MEDAL, an autonomous RL algorithm that learns a backward policy to match the expert state distri-
結論 MEDAL は,エキスパート状態と一致する後方ポリシを学習する自律的RLアルゴリズムである。 訳抜け防止モード: 6 結論 自律RLアルゴリズムであるMEDALを提案する。 専門家のディストリと一致するための後方政策を学ぶ
0.65
Figure 6. Isolating the effect of matching demonstration data.
図6。 実演データとのマッチングの効果を分離する。
0.71
The speed up of MEDAL compared to FBRL + VICE, which matches the initial state distribution, suggests that the performance gains of MEDAL can be attributed to the better initial state distribution created by the backward controller.
bution using an implicit distribution matching approach.
暗黙の分布マッチングアプローチを用いたブティオン。
0.73
Our empirical analysis indicates that this approach creates an effective initial state distribution for the forward policy, improving both the performance and the efficiency.
Similarly, in applications where safe exploration is a requirement, MEDAL can be adapted to constrain the forward policy such that it stays close to the task-distribution defined by the demonstrations.
While MEDAL pushes further the improvements in ARL, as exemplified by the reduction of sample efficiency gap on sawyer door closing results, there is still a substantial gap in performance between ARL methods and oracle RL on sawyer peg, motivating the search for better methods.
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
References Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., and Zaremba, W. Hindsight experience replay.
Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba を参照。 訳抜け防止モード: Andrychowicz, M., Wolski, F., Ray, A. Schneider, J., Fong, R., Welinder, P. McGrew, B., Tobin, J., Abbeel, P. そして、Zaremba , W. Hindsight experience replay 。
0.82
arXiv preprint arXiv:1707.01495, 2017.
arxiv プレプリント arxiv:1707.01495, 2017
0.43
Argall, B. D., Chernova, S., Veloso, M., and Browning, B. A survey of robot learning from demonstration.
argall, b. d., chernova, s., veloso, m. and browning, b. a survey of robot learning from demonstration (英語) 訳抜け防止モード: Argall, B. D., Chernova, S., Veloso, M. とBrowning, B. デモからのロボット学習に関する調査
0.83
Robotics and autonomous systems, 57(5):469–483, 2009.
ロボットと自律システム, 57(5):469–483, 2009
0.87
Baram, N., Anschel, O., Caspi, I., and Mannor, S. Endto-end differentiable adversarial imitation learning.
Baram, N., Anschel, O., Caspi, I., and Mannor, S. Endto-end differentiable adversarial mimicion learning
0.44
In International Conference on Machine Learning, pp. 390– 399.
国際機械学習会議、p.390-399。
0.61
PMLR, 2017.
2017年、PMLR。
0.66
Bloesch, M., Humplik, J., Patraucean, V., Hafner, R., Haarnoja, T., Byravan, A., Siegel, N. Y., Tunyasuvunakool, S., Casarini, F., Batchelor, N., et al Towards real robot learning in the wild: A case study in bipedal locomotion.
Bloesch, M., Humplik, J., Patraucean, V., Hafner, R., Haarnoja, T., Byravan, A., Siegel, N. Y., Tunyasuvunakool, S., Casarini, F., Batchelor, N., et al al 野生での実際のロボット学習に向けたケーススタディ。
0.74
In Conference on Robot Learning, pp. 1502– 1511.
ロボット学習に関する国際会議, pp. 1502-1511。
0.79
PMLR, 2022.
PMLR、2022年。
0.78
Brys, T., Harutyunyan, A., Suay, H. B., Chernova, S., Taylor, M. E., and Now´e, A. Reinforcement learning from demonstration through shaping.
Brys, T., Harutyunyan, A., Suay, H. B., Chernova, S., Taylor, M. E., and Now ́e, A. Reinforcement learning from demonstration through formping。 訳抜け防止モード: Brys, T., Harutyunyan, A., Suay, H. B. Chernova, S., Taylor, M. E., and Now ́e A. 成形による実演からの強化学習
0.90
In Twenty-fourth international joint conference on artificial intelligence, 2015.
2015年、第24回人工知能国際会議。
0.57
Burda, Y., Edwards, H., Storkey, A., and Klimov, O. Exploration by random network distillation.
ランダムネットワーク蒸留によるBurda, Y., Edwards, H., Storkey, A. and Klimov, O. Exploration
0.77
arXiv preprint arXiv:1810.12894, 2018.
arXiv preprint arXiv:1810.12894, 2018
0.40
Campos, V., Trott, A., Xiong, C., Socher, R., Gir´o-i Nieto, X., and Torres, J. Explore, discover and learn: Unsupervised discovery of state-covering skills.
Campos, V., Trott, A., Xiong, C., Socher, R., Gir ́o-i Nieto, X., and Torres, J. Explore, discover and learn: Unsupervised discovery of state-covering skills。
0.48
In International Conference on Machine Learning, pp. 1317–1327.
国際機械学習会議、p.1317-1327。
0.64
PMLR, 2020.
PMLR、2020年。
0.88
Chatzilygeroudis, K., Vassiliades, V., and Mouret, J.
Chatzilygeroudis, K., Vassiliades, V., Mouret, J。
0.37
-B. Reset-free trial-and-error learning for robot damage recovery.
-B。 ロボット損傷回復のためのリセットフリートライアル・アンド・エラー学習
0.49
Robotics and Autonomous Systems, 100:236–250, 2018.
ロボティクスと自律システム、2018年100:236-250。
0.63
Co-Reyes, J. D., Sanjeev, S., Berseth, G., Gupta, A., and Levine, S. Ecological reinforcement learning.
Co-Reyes, J. D., Sanjeev, S., Berseth, G., Gupta, A., Levine, S. Ecological reinforcement learning。 訳抜け防止モード: co - reyes, j. d., sanjeev, s., berseth。 gupta, a., levine, s. ecological reinforcement learning などである。
0.69
arXiv preprint arXiv:2006.12478, 2020.
arxiv プレプリント arxiv:2006.12478, 2020
0.43
Even-Dar, E., Kakade, S. M., and Mansour, Y. Reinforce-
Even-Dar, E., Kakade, S. M. and Mansour, Y. Reinforce
0.45
ment learning in pomdps without resets.
リセットのないpomdpにおけるメント学習
0.70
2005. Eysenbach, B., Gu, S., Ibarz, J., and Levine, S. Leave no trace: Learning to reset for safe and autonomous reinforcement learning.
2005. eysenbach, b., gu, s., ibarz, j., levine, s.は、安全で自律的な強化学習のためにリセットする学習の痕跡を残さない。 訳抜け防止モード: 2005. Eysenbach, B., Gu, S., Ibarz, J. Levine, S. leave no trace : 安全で自律的な強化学習のためにリセットする学習。
0.65
arXiv preprint arXiv:1711.06782, 2017.
arxiv プレプリント arxiv:1711.06782, 2017
0.42
Eysenbach, B., Gupta, A., Ibarz, J., and Levine, S. Diversity is all you need: Learning skills without a reward function.
eysenbach, b., gupta, a., ibarz, j., levine, s. diversityが必要なのは、報酬機能のない学習スキルだけです。
0.73
arXiv preprint arXiv:1802.06070, 2018.
arXiv preprint arXiv:1802.06070, 2018
0.40
Finn, C., Levine, S., and Abbeel, P. Guided cost learning: Deep inverse optimal control via policy optimization.
Finn, C., Levine, S., Abbeel, P. Guided Cost Learning: Deep inverse optimal control via policy optimization。
0.41
In International conference on machine learning, pp. 49–58.
英語) international conference on machine learning, pp. 49-58。
0.77
PMLR, 2016.
2016年、PMLR。
0.69
Fu, J., Singh, A., Ghosh, D., Yang, L., and Levine, S. Variational inverse control with events: A general framework for data-driven reward definition.
Fu, J., Singh, A., Ghosh, D., Yang, L., Levine, S. Variational inverse control with events: データ駆動報酬定義のための一般的なフレームワーク。
0.87
arXiv preprint arXiv:1805.11686, 2018.
arXiv preprint arXiv:1805.11686, 2018
0.40
Ghasemipour, S. K. S., Zemel, R., and Gu, S. A divergence minimization perspective on imitation learning methods.
Ghasemipour, S. K. S., Zemel, R., Gu. S. 模倣学習法における発散最小化の視点
0.89
In Conference on Robot Learning, pp. 1259–1277.
ロボット学習に関する国際会議,p.1259-1277。
0.69
PMLR, 2020.
PMLR、2020年。
0.88
Goodfellow, I. Nips 2016 tutorial: Generative adversarial
goodfellow, i. nips 2016チュートリアル:generative adversarial
0.80
networks. arXiv preprint arXiv:1701.00160, 2016.
ネットワーク。 arxiv プレプリント arxiv:1701.00160, 2016
0.56
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets.
goodfellow, i., pouget-abadie, j., mirza, m., xu, b., warde-farley, d., ozair, s., courville, a., and bengio, y. generative adversarial nets.
0.39
Advances in neural information processing systems, 27, 2014.
ニューラル情報処理システムの進歩, 2014年7月27日。
0.74
Gregor, K., Rezende, D. J., and Wierstra, D. Variational intrinsic control.
Gregor, K., Rezende, D. J. and Wierstra, D. Variational intrinsic control
0.44
arXiv preprint arXiv:1611.07507, 2016.
arxiv プレプリント arxiv:1611.07507, 2016
0.43
Gupta, A., Yu, J., Zhao, T. Z., Kumar, V., Rovinsky, A., Xu, K., Devlin, T., and Levine, S. Reset-free reinforcement learning via multi-task learning: Learning dexterous manipulation behaviors without human intervention.
Gupta, A., Yu, J., Zhao, T. Z., Kumar, V., Rovinsky, A., Xu, K., Devlin, T., Levine, S。 訳抜け防止モード: Gupta, A., Yu, J., Zhao, T. Z. Kumar, V., Rovinsky, A., Xu, K. Devlin, T. and Levine, S. Reset - マルチタスク学習による無料強化学習- 人間の介入なしに巧妙な操作行動を学ぶ。
0.88
arXiv preprint arXiv:2104.11203, 2021.
arXiv preprint arXiv:2104.11203, 2021
0.40
Ha, S., Xu, P., Tan, Z., Levine, S., and Tan, J. Learning to walk in the real world with minimal human effort.
Ha, S., Xu, P., Tan, Z., Levine, S. and Tan, J. Learning to walk in the real world with minimal human effort。 訳抜け防止モード: Ha,S.,Xu,P.,Tan,Z. Levine, S., and Tan, J. Learning 人間の努力を最小限に抑えて 現実世界を歩き回っています
0.84
arXiv preprint arXiv:2002.08550, 2020.
arXiv preprint arXiv:2002.08550, 2020
0.40
Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor.
Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor。
0.48
In International conference on machine learning, pp. 1861–1870.
機械学習に関する国際会議』、p. 1861-1870。
0.76
PMLR, 2018.
2018年、PMLR。
0.68
Han, W., Levine, S., and Abbeel, P. Learning compound multi-step controllers under unknown dynamics.
Han, W., Levine, S. and Abbeel, P. Learning Complex Multi-step controllers under unknown dynamics。
0.44
In 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 6435–6442.
2015年、IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 6435–6442。
0.87
IEEE, 2015.
2015年、IEEE。
0.69
Hazan, E., Kakade, S., Singh, K., and Van Soest, A. Provably efficient maximum entropy exploration.
hazan, e., kakade, s., singh, k., van soest, a. provably effective maximum entropy exploration (英語) 訳抜け防止モード: Hazan, E., Kakade, S., Singh, K. そして、Van Soest, A。 エントロピー探索の効率は高い。
0.81
In International Conference on Machine Learning, pp. 2681–2691.
機械学習国際会議』2681-2691頁。
0.57
PMLR, 2019.
2019年、PMLR。
0.72
Hester, T., Vecerik, M., Pietquin, O., Lanctot, M., Schaul, T., Piot, B., Horgan, D., Quan, J., Sendonaris, A., Osband, I., et al Deep q-learning from demonstrations.
Hester, T., Vecerik, M., Pietquin, O., Lanctot, M., Schaul, T., Piot, B., Horgan, D., Quan, J., Sendonaris, A., Osband, I., et al Deep q-learning from demonstrations。 訳抜け防止モード: Hester, T., Vecerik, M., Pietquin, O. Lanctot, M., Schaul, T., Piot, B. Horgan, D., Quan, J., Sendonaris, A. Osband, I., et al Deep q - デモから学びました
0.84
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 32, 2018.
AAAI Conference on Artificial Intelligence、第32巻、2018年。
0.62
英語(論文から抽出)
日本語訳
スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
Ho, J. and Ermon, S. Generative adversarial imitation learning.
Ho, J. and Ermon, S. Generative adversarial mimicion learning
0.41
Advances in neural information processing systems, 29:4565–4573, 2016.
ニューラル情報処理システムの進歩 (29:4565–4573, 2016)
0.70
Sharma, A., Gu, S., Levine, S., Kumar, V., and Hausman, K. Dynamics-aware unsupervised discovery of skills.
Sharma, A., Gu, S., Levine, S., Kumar, V., Hausman, K. Dynamicsは、教師なしのスキル発見を意識している。
0.76
arXiv preprint arXiv:1907.01657, 2019.
arXiv preprint arXiv:1907.01657, 2019
0.41
Kakade, S. and Langford, J. Approximately optimal approximate reinforcement learning.
Kakade, S. and Langford, J. 近似近似強化学習
0.34
In In Proc. 19th International Conference on Machine Learning.
に登場。 第19回機械学習国際会議に参加。
0.52
Citeseer, 2002.
2002年、Citeseer。
0.73
Kostrikov, I., Agrawal, K. K., Dwibedi, D., Levine, S., and Tompson, J. Discriminator-actor- critic: Addressing sample inefficiency and reward bias in adversarial imitation learning.
Kostrikov, I., Agrawal, K. K., D., Levine, S., and Tompson, J. Discriminator-actor- critic: 敵模倣学習におけるサンプル非効率性と報酬バイアスに対処する。
0.83
arXiv preprint arXiv:1809.02925, 2018.
arXiv preprint arXiv:1809.02925, 2018
0.40
Lee, L., Eysenbach, B., Parisotto, E., Xing, E., Levine, S., and Salakhutdinov, R. Efficient exploration via state marginal matching.
Lee, L., Eysenbach, B., Parisotto, E., Xing, E., Levine, S., Salakhutdinov, R. Efficient exploration via state marginal matching。 訳抜け防止モード: lee, l., eysenbach, b., parisotto, e. xing氏、levine氏、s.氏、salakhutdinov氏、r. state marginal matchingによる効率的な探索。
0.75
arXiv preprint arXiv:1906.05274, 2019.
arxiv プレプリント arxiv: 1906.05274, 2019
0.43
Lu, K., Grover, A., Abbeel, P., and Mordatch, I. Reset-free lifelong learning with skill-space planning.
Lu, K., Grover, A., Abbeel, P., Mordatch, I. Reset-free lifelong learning with skill-space planning。 訳抜け防止モード: Lu, K., Grover, A., Abbeel, P. Mordatch, I. Reset - スキルを持ったフリーの生涯学習 - スペースプランニング。
0.78
arXiv preprint arXiv:2012.03548, 2020.
arxiv プレプリント arxiv:2012.03548, 2020
0.43
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al Human-level control through deep reinforcement learning.
mnih, v., kavukcuoglu, k., silver, d., rusu, a. a., veness, j., bellemare, m. g., graves, a., riedmiller, m., fidjeland, a. k., ostrovski, g., et al human-level control through deep reinforcement learning (英語) 訳抜け防止モード: Mnih, V., Kavukcuoglu, K., Silver, D. Rusu, A. A., Veness, J., Bellemare, M. G. Graves, A., Riedmiller, M., Fidjeland, A. K. Ostrovski, G., et al Human - 深層強化学習によるレベルコントロール。
0.89
nature, 518(7540): 529–533, 2015.
自然, 518(7540): 529–533, 2015
0.85
Nair, A., McGrew, B., Andrychowicz, M., Zaremba, W., and Abbeel, P. Overcoming exploration in reinforcement learning with demonstrations.
Nair, A., McGrew, B., Andrychowicz, M., Zaremba, W. and Abbeel, P。
0.43
In 2018 IEEE international conference on robotics and automation (ICRA), pp. 6292– 6299.
2018年、IEEE International Conference on Robotics and Automation (ICRA), pp. 6292–6299。
0.39
IEEE, 2018.
2018年、IEEE。
0.52
Ng, A. Y., Russell, S. J., et al Algorithms for inverse reinforcement learning.
逆強化学習のためのng, a. y., russell, s. j., et alアルゴリズム
0.79
In Icml, volume 1, pp. 2, 2000.
Icml, volume 1, pp. 2 2000。
0.65
Nowozin, S., Cseke, B., and Tomioka, R. f-gan: Training generative neural samplers using variational divergence minimization.
Nowozin, S., Cseke, B. and Tomioka, R. f-gan : 変異分散最小化を用いた生成神経サンプルの訓練
0.85
In Proceedings of the 30th International Conference on Neural Information Processing Systems, pp. 271–279, 2016.
Rafailov, R., Yu, T., Rajeswaran, A., and Finn, C. Visual adversarial imitation learning using variational models.
Rafailov, R., Yu, T., Rajeswaran, A. and Finn, C. Visualversarial mimicion learning using variational model。 訳抜け防止モード: Rafailov, R., Yu, T., Rajeswaran, A. そしてFinn, C. 変分モデルを用いた視覚的対人模倣学習
0.84
Advances in Neural Information Processing Systems, 34, 2021.
ニューラル情報処理システム(34,2021)の進歩
0.67
Rajeswaran, A., Kumar, V., Gupta, A., Vezzani, G., Schulman, J., Todorov, E., and Levine, S. Learning complex dexterous manipulation with deep reinforcement learning and demonstrations.
Rajeswaran, A., Kumar, V., Gupta, A., Vezzani, G., Schulman, J., Todorov, E., and Levine, S. Learning Complex dexterous manipulate with Deep reinforcement learning and demonstrations。 訳抜け防止モード: Rajeswaran, A., Kumar, V., Gupta, A. Vezzani, G., Schulman, J., Todorov, E. そして、Levine, S. Learningは、深い強化学習とデモによる複雑な巧妙な操作である。
0.83
arXiv preprint arXiv:1709.10087, 2017.
arxiv プレプリント arxiv:1709.10087, 2017
0.42
Sharma, A., Gupta, A., Levine, S., Hausman, K., and Finn, C. Autonomous reinforcement learning via subgoal curricula.
Sharma, A., Gupta, A., Levine, S., Hausman, K. and Finn, C. autonomous reinforcement learning through subgoal curricula。 訳抜け防止モード: sharma, a., gupta, a., levine, s. hausman, k., finn, c. subgoal curricula による自律強化学習
0.67
Advances in Neural Information Processing Systems, 34, 2021.
ニューラル情報処理システム(34,2021)の進歩
0.67
Sharma, A., Xu, K., Sardana, N., Gupta, A., Hausman, K., Levine, S., and Finn, C. Autonomous reinforcement learning: Formalism and benchmarking.
Sharma, A., Xu, K., Sardana, N., Gupta, A., Hausman, K., Levine, S., Finn, C. 自律強化学習:形式主義とベンチマーク。
0.82
International Conference on Learning Representations, 2022.
英語) international conference on learning representations, 2022
0.81
Singh, A., Yang, L., Hartikainen, K., Finn, C., and Levine, S. End-to-end robotic reinforcement learning without reward engineering.
Singh, A., Yang, L., Hartikainen, K., Finn, C., Levine, S. End-to-end Robotics reinforcement learning without reward engineering。 訳抜け防止モード: Singh, A., Yang, L., Hartikainen, K. Finn, C. and Levine, S. End - To - 報酬工学なしでロボット強化学習を終了する。
0.85
arXiv preprint arXiv:1904.07854, 2019.
arxiv プレプリント arxiv:1904.07854, 2019
0.42
Smith, L., Kew, J. C., Peng, X. B., Ha, S., Tan, J., and Levine, S. Legged robots that keep on learning: Finetuning locomotion policies in the real world.
Smith, L., Kew, J. C., Peng, X. B., Ha, S., Tan, J. and Levine, S. Legged Robots that keep to learn: Finetuning locomotion Policy in the real world。 訳抜け防止モード: Smith, L., Kew, J. C., Peng, X. B. 学習を続けるHa,S.,Tan,J.,Levine, S.Leggedロボット 現実世界における微妙なロコモーション政策。
0.72
arXiv preprint arXiv:2110.05457, 2021.
arXiv preprint arXiv:2110.05457, 2021
0.40
Torabi, F., Warnell, G., and Stone, P. Adversarial imitation In Proceedlearning from state-only demonstrations.
Torabi, F., Warnell, G. and Stone, P. Adversarial mimicion In Proceedlearning from state-only demonstrations
0.44
ings of the 18th International Conference on Autonomous Agents and MultiAgent Systems, pp. 2229–2231, 2019.
The 18th International Conference on Autonomous Agents and MultiAgent Systems, pp. 2229–2231, 2019 訳抜け防止モード: 第18回国際エージェント・マルチエージェントシステム会議に参加して pp . 2229–2231 , 2019 .
0.83
Vecerik, M., Hester, T., Scholz, J., Wang, F., Pietquin, O., Piot, B., Heess, N., Roth¨orl, T., Lampe, T., and Riedmiller, M. Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards.
Xu, K., Verma, S., Finn, C., and Levine, S. Continual learning of control primitives: Skill discovery via resetgames.
Xu, K., Verma, S., Finn, C., Levine, S. コントロールプリミティブの継続的な学習:リセットゲームによるスキル発見。
0.85
arXiv preprint arXiv:2011.05286, 2020.
arxiv プレプリント arxiv:2011.05286, 2020
0.43
Zhang, H., Cisse, M., Dauphin, Y. N., and Lopez-Paz, D. mixup: Beyond empirical risk minimization.
Zhang, H., Cisse, M., Dauphin, Y. N., Lopez-Paz, D. mixup: 経験的リスク最小化を超えて。
0.81
arXiv preprint arXiv:1710.09412, 2017.
arxiv プレプリント arxiv:1710.09412, 2017
0.41
Zhu, H., Yu, J., Gupta, A., Shah, D., Hartikainen, K., Singh, A., Kumar, V., and Levine, S. The ingredients of real world robotic reinforcement learning.
Zhu, H., Yu, J., Gupta, A., Shah, D., Hartikainen, K., Singh, A., Kumar, V., Levine, S。 訳抜け防止モード: Zhu, H., Yu, J., Gupta, A. Shah, D., Hartikainen, K., Singh, A. Kumar, V. and Levine, S. 現実世界のロボット強化学習の材料。
0.82
In International Conference on Learning Representations, 2020a.
International Conference on Learning Representations, 2020a(英語)
0.43
Zhu, Z., Lin, K., Dai, B., and Zhou, J. Off-policy imitation learning from observations.
Zhu, Z., Lin, K., Dai, B., Zhou, J. 観察から学ぶ非政治模倣
0.65
In the Thirty-fourth Annual Conference on Neural Information Processing Systems (NeurIPS 2020), 2020b.
第34回神経情報処理システム年次大会(NeurIPS 2020, 2020b)に参加して
0.79
Ziebart, B. D., Maas, A. L., Bagnell, J. A., Dey, A. K., et al Maximum entropy inverse reinforcement learning.
Ziebart, B. D., Maas, A. L., Bagnell, J. A., Dey, A. K., et al Maximum entropy inverse reinforcement learning。
0.46
In Aaai, volume 8, pp. 1433–1438.
aaai, volume 8, pp. 1433–1438。
0.82
Chicago, IL, USA, 2008.
シカゴ、イル、アメリカ、2008年。
0.63
Rivest, R. L. and Schapire, R. E. Inference of finite automata using homing sequences.
R. L. and Schapire, R. E. ホーミング列を用いた有限オートマトンの推定
0.65
Information and Computation, 103(2):299–347, 1993.
情報と計算、1993年103(2):299-347。
0.75
Ziebart, B. D., Bagnell, J. A., and Dey, A. K. Modeling interaction via the principle of maximum causal entropy.
Ziebart, B. D., Bagnell, J. A., and Dey, A. K. Modeling Interaction through the principle of maximum causal entropy。 訳抜け防止モード: Ziebart, B. D., Bagnell, J. A., Dey A.K. 最大因果エントロピーの原理による相互作用のモデル化
0.85
In ICML, 2010.
2010年、ICML。
0.70
英語(論文から抽出)
日本語訳
スコア
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning
非正規強化学習に対する状態分布マッチングアプローチ
0.75
Figure 7. Performance comparison of r(s, a) = log(C(s)) and r(s, a) = − log(1 − C(s)) on (left) the table-top organization environment, (center) the sawyer door closing environment, and (right) the sawyer peg environment.
図7。 r(s, a) = log(C(s)) と r(s, a) = − log(1 − C(s)) のパフォーマンス比較(左) テーブルトップ組織環境、(中央) ソーヤードア閉鎖環境、(右) ソーヤーペグ環境。
0.69
Plots show learning curves with mean and standard error over 5 random seeds.
プロットは5つのランダムシードの平均値と標準値の学習曲線を示す。
0.66
A. MEDAL Implementation MEDAL is implemented with TF-Agents, built on SAC as the base RL algorithm.
A. MEDAL の実装 MEDAL は TF-Agents で実装されており、ベースRL アルゴリズムとして SAC 上に構築されている。
0.55
Hyperparameters follow the default values: initial collect steps: 10,000, batch size sampled from replay buffer for updating policy and critic: 256, steps collected per iteration: 1, trained per iteration: 1, discount factor: 0.99, learning rate: 3e − 4 (for critics, actors, and discriminator).
For the discriminator, it was parameterized as a neural network with one hidden layer of size 128.
判別器では、サイズ128の隠蔽層を持つニューラルネットワークとしてパラメータ化された。
0.80
This discriminator is updated once every 10 collection steps for all environments.
この識別器は、すべての環境に対して10ステップ毎に更新される。
0.59
Due to a small positive dataset, mixup (Zhang et al , 2017) is used as a regularization technique on the discriminator for all environments.
小さな正のデータセットのため、すべての環境における判別器の正規化手法としてmixup(Zhang et al , 2017)が使用される。
0.72
Additionally, the batch size for the discriminator is set to 800 for all environments as this significantly larger value was found to stabilize training.
Another choice that improved the stability was the choice of reward function for the backward controller: both r(s, a) = − log(1 − C(s)) and r(s, a) = log(C(s)) preserve the saddle point (ρ∗, 0.5) for the optimization in Equation 3.
安定性を改善したもう一つの選択肢は、後方コントローラに対する報酬関数の選択であった: r(s, a) = − log(1 − C(s)) と r(s, a) = log(C(s)) は、方程式3の最適化のためにサドル点 (ρ∗, 0.5) を保持する。
0.89
However, as can be seen in Figure 7, r(s, a) = − log(1 − C(s)) leads to both better and stable performance.
しかし、図7に示すように、r(s, a) = − log(1 − C(s)) はより良い性能と安定した性能をもたらす。
0.77
We hypothesize that this is due to smaller gradients of the − log(1 − C(s)) when C(s) ≤ 0.5, which is where the discriminator is expected to be for most of the training as the discriminator can easily distinguish between expert states and those of the backward policy to begin with.
B. Environments The environment details can be found in (Sharma et al , 2022).
B.環境 環境の詳細はSharma et al , 2022)に記載されている。
0.83
We briefly describe environments for completeness.
完全性のための環境を簡潔に説明する。
0.54
For every environment, HT defines the number of steps after which the environment is reset to a state s0 ∼ ρ0, and HE defines the evaluation horizon over which the return is computed for deployed policy evaluation: table-top organization: Table-top organization is run with a training horizon of HT = 200, 000 and HE = 200.