論文の概要、ライセンス

# (参考訳) OffCon$^3$:とにかく芸術の現状は何ですか? [全文訳有]

OffCon$^3$: What is state of the art anyway? ( http://arxiv.org/abs/2101.11331v1 )

ライセンス: CC BY 4.0
Philip J. Ball and Stephen J. Roberts(参考訳) モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。 sac は確率的提案政策と仮定的エネルギーベースソフト q-関数政策の間の kl-divergence を最小化し、td3 は決定論的方針を用いて値関数に沿って政策勾配を上昇させる dpg から派生したものである。 実際、どちらのアプローチも非常に類似しており、'Off-Policy Continuous Generalized Policy Iteration'と呼ばれるアプローチのファミリーに属します。 これは、ほとんどの連続制御ベンチマークで同様の性能を照らし、実際にハイパーパラメータが一致した場合、それらの性能は統計的に区別できない。 さらに実装上の差異を取り除くために,両アルゴリズムの最先端バージョンを特徴とするコードベースであるoffcon$^3$ (オフポリシー連続制御: integrated) を提供する。

Two popular approaches to model-free continuous control tasks are SAC and TD3. At first glance these approaches seem rather different; SAC aims to solve the entropy-augmented MDP by minimising the KL-divergence between a stochastic proposal policy and a hypotheical energy-basd soft Q-function policy, whereas TD3 is derived from DPG, which uses a deterministic policy to perform policy gradient ascent along the value function. In reality, both approaches are remarkably similar, and belong to a family of approaches we call `Off-Policy Continuous Generalized Policy Iteration'. This illuminates their similar performance in most continuous control benchmarks, and indeed when hyperparameters are matched, their performance can be statistically indistinguishable. To further remove any difference due to implementation, we provide OffCon$^3$ (Off-Policy Continuous Control: Consolidated), a code base featuring state-of-the-art versions of both algorithms.
公開日: Wed, 27 Jan 2021 11:45:08 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
O(cid:29)Con3: What Philip J. O(cid:29)Con3: Philip J。 0.93
Ball Department of Engineering University of Oxford オックスフォード大学工学部ボール科 0.58
is State-of-the-Art Anyway? Stephen J. Roberts Department of Engineering University of Oxford は 最新技術は? オックスフォード大学工学部スティーブン・J・ロバーツ学科 0.58
Science Science Oxford, UK 科学 科学 オックスフォード、イギリス 0.75
Oxford, UK オックスフォード、イギリス 0.72
1 2 0 2 n a J 7 2 ] G L . 1 2 0 2 n a J 7 2 ] G L . 0.85
s c [ 1 v 1 3 3 1 1 . s c [ 1 v 1 3 3 1 1 ] である。 0.80
1 0 1 2 : v i X r a 1 0 1 2 : v i X r a 0.85
ball@robots.ox.ac.uk ball@robots.ox.ac.uk 0.47
January 28, sjrob@robots.ox.ac.u k 2021 1月28日 sjrob@robots.ox.ac.u k 2021 0.65
Abstract continuous to solve 解決するための抽象的連続性 0.54
control the are benchmarks, コントロールしろ ベンチマークです 0.58
remarkably similar, and approaches seem rather di(cid:29)erent; SAC aims 驚くほど似ていて アプローチは、むしろdi(cid:29)erent; SACが目指す 0.62
to model-free statistically indistinguishable. モデルフリーに 統計的に区別できない。 0.57
To further control (O(cid:29) -Policy Continuous Control: Consolidated), both algorithms. さらなる展開 Control (O(cid:29) - Policy Continuous Control: Consolidated) 両方のアルゴリズム。 0.76
In reality, both approaches function. 実際、どちらのアプローチも機能する。 0.63
along the value ‘O(cid:29)-Policy Continuous Generalized Policy Iteration’. O(cid:29)-Policy Continuous Generalized Policy Iteration」の値に沿って。 0.87
This call approaches we similar performance continuous in most can be remove their performance to implementation, we provide O(cid:29)Con3 featuring state-of-the-art versions of このコールアプローチは、ほとんどの場合、類似したパフォーマンスを継続することで、そのパフォーマンスを実装から削除することができます。 0.60
are Two popular glance tasks SAC and TD3. SACとTD3の2つの人気タスクです。 0.62
At (cid:27)rst these approaches entropy-augmented MDP by minimising energy-basd soft Q-function the KL-divergence between a stochastic proposal policy and a hypotheical policy, whereas TD3 is derived from DPG, which uses a deterministic policy to perform policy gradient ascent and belong to a family of illuminates indeed when hyperparameters their are matched, any di(cid:29)erence due code base Introduction 1 continuous control in model-free State-of-the-art performance (RL) has dominated by o(cid:29)-policy maximum-entropy/soft -policy based methods, namely Soft Actor Critic both model-free literature, is evidenced by the plethora of This chooses the as best performing model-free standard [3, the Deterministic Policy Gradients 1.1 for o(cid:29)-policy reinforcement this point we introduce the notion of deterministic policy gradients (DPGs) At contrast stochastic a (SPGs) in is rely learning. At (cid:27)rst these approaches entropy-augmented MDP by minimising energy-basd soft Q-function the KL-divergence between a stochastic proposal policy and a hypotheical policy, whereas TD3 is derived from DPG, which uses a deterministic policy to perform policy gradient ascent and belong to a family of illuminates indeed when hyperparameters their are matched, any di(cid:29)erence due code base Introduction 1 continuous control in model-free State-of-the-art performance (RL) has dominated by o(cid:29)-policy maximum-entropy/soft -policy based methods, namely Soft Actor Critic both model-free literature, is evidenced by the plethora of This chooses the as best performing model-free standard [3, the Deterministic Policy Gradients 1.1 for o(cid:29)-policy reinforcement this point we introduce the notion of deterministic policy gradients (DPGs) At contrast stochastic a (SPGs) in is rely learning. 0.95
This policy that on policy for stochastic to gradients and intuitively the SPG [8], limiting case of estimation. 勾配に対する確率的政策と直感的に SPG [8] に関する政策は、推定の場合を制限する。 0.79
gradient shown that DPG is can be It simply a estimating for between them focuses on how they each rely on samples key di(cid:29)erence gradients. DPGが可能であることを示すグラデーション 単にそれらの間の推定は、それぞれがサンプルキーDi(cid:29)レンスグラデーションに依存する方法に焦点を当てています。 0.65
For both approaches For details is required. どちらのアプローチでも詳細は必要です。 0.62
the policy gradient proof see [8, 9], but through changing the order of integration and/or di(cid:29)erentiatio n we reliance of the derivative on having can remove the the underlying state distribution. ポリシーのグラデーションの証明は [8, 9] を参照するが、統合の順序と/または di(cid:29) の順を変更することにより、その導関数が基礎となる状態分布を取り除けるよう依存する。
訳抜け防止モード: 政策勾配証明は [8, 9] 統合の順序やDi(cid:29)の順序を変えることで 我々は、デリバティブが根底にある状態分布を除去できることに依存している。
0.77
access the variance parameter of SPG, a aforementioned, DPG is speci(cid:27)cally when the limiting case of As to 0 (i.e., σ → 0). SPG の分散パラメータにアクセスすると、上述の DPG は、As の 0 への極限の場合(すなわち σ → 0 )に正則である(cid:27)。 0.82
However similarities SPG policy tends between these the di(cid:29)erences two methods are nuanced and merit further investigation. しかし、類似性 SPG ポリシーは、これらの di(cid:29) レンスの間には、2 つの方法がニュアンスされ、さらなる調査に役立ちます。 0.54
This is under-explored and often incorrect equivalences are drawn (i.e., DPG necessitates o(cid:29)-policy learning, SPG necessitates on-policy learning). これは探索不足であり、しばしば誤った等価性が引き出される(すなわち、DPGは、o(cid:29)-policy learning、SPGは、政治学習を必要とする)。 0.55
reinforcement and model-based, 強化とモデルベース。 0.64
learning that approach. そのアプローチを学ぶ。 0.71
been [1, 2]. SAC as 1, 2]です。 SAC 0.47
4, 5, 6, 7], often showing it 4, 5, 6, 7] しばしば示すように 0.82
and a 1 そして あ... 1 0.58
英語(論文から抽出)日本語訳スコア
the update We アップデート 私たち 0.58
start by presenting スタート プレゼンすることで 0.58
a itself, tuples to write あ... タプルで書くのです 0.31
∇θJQ ≈ ∇θEr,s,s(cid:48)∼E s,s(cid:48),e である。 0.56
to why DPG facilitates o(cid:29)-policy learning: dpgがo(cid:29)-policy learningを促進する理由 0.68
simple explanation as Q(s, a) = Er,s(cid:48)∼E [rt + γQ(s(cid:48), µ(s(cid:48)))] (1) . Q(s, a) = Er,s(cid:48) としての簡単な説明 E [rt + γQ(s(cid:48), μ(s(cid:48)))] (1) 。 0.93
the and not environment expectation is only dependent on the the that Observing Eq 1, we note samples environment all we need to train the Q-function is policy. 環境期待は eq 1 を観測する条件にのみ依存し、q-関数を訓練するために必要なサンプル環境に注意する。 0.66
Therefore, (i.e., (s, a, r, st+1) are down the a position bu(cid:29)er), the and from a deterministic now in replay policy π. したがって、 (s, a, r, st+1) は a の位置 bu (cid:29)er を下降し、現在リプレイ政策 π で決定論的である。 0.75
We critic and the actor. 私たちは批評家と俳優です。 0.67
critic, we use a standard Bellman the objectives we wish to maximize For for both the (cid:104)(cid:0)Q(s, a) −(cid:0)r + γQ(s(cid:48), a(cid:48))|a(cid:48)=π(s(cid:48)) (cid:1)(cid:1)2(cid: 105) a Q-function: the actor, we maximize expected return under the and for update, JQ = Es,a,r,s(cid:48)∼E actor π, we wish to maximize the expected return: (cid:2)Q(s, a)|a=π(s) (cid:3) (3) Jπ = Es∼E [V (s)] (4) = Es∼E We steps required for DPG-style algorithms, or more can now write out speci(cid:27)cally DDPG comparisons to SAC later on. critic, we use a standard Bellman the objectives we wish to maximize For for both the (cid:104)(cid:0)Q(s, a) −(cid:0)r + γQ(s(cid:48), a(cid:48))|a(cid:48)=π(s(cid:48)) (cid:1)(cid:1)2(cid: 105) a Q-function: the actor, we maximize expected return under the and for update, JQ = Es,a,r,s(cid:48)∼E actor π, we wish to maximize the expected return: (cid:2)Q(s, a)|a=π(s) (cid:3) (3) Jπ = Es∼E [V (s)] (4) = Es∼E We steps required for DPG-style algorithms, or more can now write out speci(cid:27)cally DDPG comparisons to SAC later on. 0.94
We facilitate considering the use of neural networks. ニューラルネットワークの利用を考慮しやすくする。 0.68
This will [10] the and φ respectively, with Qθ the Q-function and policy as the neural network weights of now denote θ and π(·) = fφ(·) function for now, as the policy as a deterministic respectively. これはそれぞれ[10] と φ であり、qθ は q-関数であり、現在ニューラルネットワークの重みとしてポリシーは θ と π(·) = f φ(·) をそれぞれ決定論として表す。
訳抜け防止モード: これは Qθ を Q-函数とする [10 ] と φ をそれぞれ持つ。 ニューラルネットワークの重みはθで表されていますが そして π ( · ) = fφ ( · ) 関数は今のところ、 決定論的な政策として
0.81
We de(cid:27)ne it will make start on a it clearer later when we distribution that is de(cid:27)ning policy π as a dependent deterministic and actor update function. we de(cid:27)ne it will make start on a it clear later when we distribution that is de(cid:27)ning policy π as adependent deterministic and actor update function。 0.87
We now write rules: critic the (cid:1)(cid:1)2(cid: 105) 1 (cid:104)(cid:0)Qθ(s, a) −(cid:0)r + γQθ(s(cid:48), a(cid:48))|a(cid:48)=fφ(s(cid:48)) Critic: (cid:2)∇aQθ(s, a)|a=fφ(s)∇φfφ(s)(cid:3) . すなわち、 (cid:1)(cid:105) 1 (cid:104)(cid:0)Qθ(s, a) −(cid:0)r + γQθ(s(cid:48), a(cid:48))|a(cid:48)=fφ(s(cid:48)) Critic: (cid:2)\aQθ(s, a)|a=fφ(s)(cid:3) である。 0.86
∇φJπ ≈ Es∼E (6) Note that, to the chain gradient through actor requires a Q-value rule, the due the estimator that to respect is iteration policy generalized the in observe Finally, we that actions. 6) は、アクタによる連鎖勾配が q-値規則を必要とするとき、尊敬する評価者は反復ポリシーを一般化し、最後にそのアクションを観察する。 0.57
di(cid:29)erentiable with of Actor-Critic with dynamic analogous is programming analogues ([9] Chapter 4); critic training to to policy improvement. di(cid:29) Actor-Criticと動的類似体はプログラミングアナログ([9] 第4章)であり、政策改善のための批判的な訓練である。 0.76
analogous policy evaluation, and actor training is Stochastic Value Gradients 1.2 taking a gradient introduces the idea of Here we discuss Stochastic Value Gradients [11], an algorithm that and associated stochastic policy. 類似のポリシー評価とアクタートレーニングはStochastic Value Gradients 1.2で、グラデーションを取ると、ここではStochastic Value Gradients [11]、アルゴリズムと関連する確率的ポリシーについて議論します。 0.84
We the learned model of speci(cid:27)cally focus on through a environment SVG(0). 私たちは、SVG(0)環境を通じて、スペック(cid:27)の学習モデルに焦点を合わせました。 0.71
interest case as of the model-free is particular it represents a limiting of this approach, This observe stepping introduced the maximum entropy methods between DPG and stone later. モデルフリーの関心事例は特にこのアプローチの制限を表し、この観察ステップは後にDMGと石の間の最大エントロピー法を導入した。 0.72
We that, speci(cid:27)cally uses SVG(0) the other unlike a Q-function to estimate versions of SVG, expected return (as function). そこで speci(cid:27) は Q-関数とは異なり SVG(0) を正規に使用して SVG のバージョンを推定する(関数として)。 0.86
state-value opposed to a Therefore we must the stochastic Bellman equation in the derive Qπ(st, at) = E(cid:2)γτ−trτ|s = st, a = at (cid:3) form of the Q-function, following a similar approach to [11]: (cid:20)(cid:90) (cid:21) (cid:90) (cid:90) rtp(rt|st, at) + γ Qπ(st+1, at+1)π(at+1|st+1)p(st+1|st, at) dat+1 dst+1 = [Qπ(st+1, at+1)](cid:3) . それゆえ、状態値とは対照的に、導関数 qπ(st, at) = e(cid:2)γτ−trτ|s = st, a = at (cid:3) の確率ベルマン方程式は、[11]: (cid:20)(cid:90) (cid:21) (cid:90) (cid:90) rtp(rt|st, at) + γ qπ(st+1, at+1)π(at+1|st+1)p(st+1|st, at) dat+1 dst+1 = [qπ(st+1, at+1)](cid:3) に準ずる。 0.78
(cid:2)rt + γEat+1∼π (cid:1)(cid:3) where yt = Ert,st+1∼E can be written as ∝ Er,s,s(cid:48)∼ρµ 1For gradient the completeness, target network terms 2 (cid:2)rt + γEat+1-π (cid:1)(cid:3) ここで yt = Ert,st+1-E は y Er,s,s(cid:48) ρμ 1 と書くことができる。 0.73
(cid:2)∇θQ Q(s, a|θQ)(cid:0)Q(s, a|θQ) − yt (cid:2) ^ Q(s, a|*Q)(cid:0)Q(s, a|*Q) − yt 0.76
(7) drt (8) (9) represents (7) drt(8) (9)は 0.77
. (5) (2) For . (5) (2) のために 0.76
the Actor: the はあ? 俳優 はあ? 0.35
英語(論文から抽出)日本語訳スコア
sample Actor: is can write サンプル 俳優 は 書くことができる 0.62
This means we Critic: つまり、私たちは批判的です。 0.44
stochastic policy a ∼ π(·). 確率政策 a は π(·) である。 0.70
To make except with a just Eq 1 Observe how Eq is 9 its derivative tractable, and amortize (µ, Σ) spherical Gaussian, a the policy as we treat its parameter inference using a neural of reparameterization/p athwise This θ. allows the use network with weights the derivative trick [12, η ∼ N (0, I). 単に eq 1 を除いた場合、eq が導関数 9 であるのを観測し、(μ, σ)球面ガウス(英語版)を償却し、このθ を再パラメータ化/経路化のニューラルを用いてそのパラメータ推論を扱い、導関数トリック [12, η n (0, i) の重み付きネットワークの使用を可能にする。 0.77
As 13]. This means a ∼ π(s, η; θ) where outside result, we move policy action sampling a environment E and a N (0, I)), through the policy and can backpropagate from both the (i.e., we [Qπ(st+1, π(st+1, η; θ))](cid:3) . 13歳。 これは、外部の結果が環境 E と N (0, I) をサンプリングする政策作用を、ポリシーを通じて移動し、(すなわち、(Qπ(st+1, π(st+1, y))](cid:3) の両方からバックプロパゲートすることができる 「 π(s, y; ) 」を意味する。 0.66
(cid:2)rt + γEη∼N (0,I) weights: Qπ(st, at) = Ert,st+1∼E = Ert,st+1∼E,η∼N (0,I) [rt + γ [Qπ(st+1, π(st+1, η; θ))]] . (cid:2)rt + γE,N (0,I) ウェイト: Qπ(st, at) = Ert,st+1,E = Ert,st+1,E,N (0,I) [rt + γ [Qπ(st+1, π(st+1, y; y)]] 。 0.82
follows: as the derivative of the Actor and Critic (cid:20)(cid:16) Q(s, a; θQ) −(cid:16) )|a(cid:48)=π(s(cid:48),η) r + γQ(s(cid:48), a(cid:48); θQ(cid:48) (cid:2)∇aQ(s, a; θQ)|a=π(s,η)∇θπ π(s, η; θπ)(cid:3) . cid:20)(cid:16) q(s, a; θq) −(cid:16) )|a(cid:48)=π(s(cid:48),η) r + γq(s(cid:48), a(cid:48); θq(cid:48) (cid:2)>aq(s, a; θq)|a=π(s,η)>θπ(s, η; θπ)(cid:3) の導出として。 0.86
∇θπ J ≈ Es∼ρπ,η∼N (0,I) (14) an additional that when determining actions to the DPG-style gradients; note this is this still an that all from a Gaussian distribution is is necessary. さらに、 DPG スタイルの勾配に対する作用を決定する際には、このことは、ガウス分布から全てを導出する必要があることに注意する必要がある。
訳抜け防止モード: ηπ j , es ρπ, ηπn (0,i ) (14 ) は追加値である。 dpgの動作決定 : スタイル勾配 注意:これはなお、ガウス分布からのすべてが必要である。
0.69
Furthermore, we observe that trajectory samples. さらに,その軌道サンプルを観察する。 0.74
to the ∇θQJ ≈ ∇θQEr,s,s(cid:48)∼ρπ,η∼N (0,I) へ s,s(cid:48),ρπ,η,n (0,i) である。 0.59
Observe how similar sample o(cid:29)-policy algorithm, with no dependency on the policy that gave 1.3 SAC is each visited state 1.3 SACが各訪問状態であるポリシーに依存しない、同様のサンプルo(cid:29)-ポリシアルゴリズムを観察する。 0.86
both return and entropy over 戻りとエントロピーの両方が 0.78
(cid:17)(cid:17)2(ci d:21) (cid:17)(cid:17)2(ci d:21) 0.76
(12) (13) (10) (11) (12) (13) (10) (11) 0.85
in a E(st,at)∼ρπ the This in a ~ E(st,at) ρπ the This 0.84
Soft Actor Critic an actor-critic method which aims to learn policy that maximizes (cid:88) trajectory [14]: [r(st, at) + αH(π(·|st))] π∗ = arg maxπ t equation in green describes additional entropy objective → as using recovered soft-policy done is 0). ソフトアクター批判 (Soft Actor Critic) は (cid:88) trajectory [14]: [r(st, at) + αH(π(·|st))] π∗ = arg maxπ t equation in green を最大とするポリシーを学ぶことを目的としたアクター批判法である。 0.69
α [1]: following entropy Bellman operator T πQ(s, a) =r(s, a) + γEs(cid:48)∼p[V (s(cid:48))] V (s) =Ea∼π[Q(s, a) − α log π(a|s)]. α [1]: エントロピーベルマン作用素 T πQ(s, a) =r(s, a) + γEs(cid:48) =p[V(s(cid:48))] V(s) =Ea π[Q(s, a) − α log π(a|s)] に従う。 0.88
(cid:20)(cid:90)(cid :90) (Qπ(s(cid:48), a(cid:48)) − α log π(a(cid:48)|s(cid:48)))π(a(cid:48)|s(cid:48))p(s(cid:48 )|s, a) da(cid:48) ds(cid:48)(cid:21) (cid:90) consistency of presentation, we present (soft) Bellman update: this as a rp(r|s, a) + γ [Qπ(s(cid:48), a(cid:48)) − α log π(a(cid:48)|s(cid:48))]] = Er,s(cid:48)∼E [r + γEa(cid:48)∼π [r + γ [Qπ(s(cid:48), π(s(cid:48), η; θ)) − α log π(s(cid:48), η; θ)]] = Er,s(cid:48)∼E,η∼N (0,I) the policy distribution as assumption about last line we make the same (cid:20)(cid:90)(cid :90) (Qπ(s(cid:48), a(cid:48)) − α log π(a(cid:48)|s(cid:48)))π(a(cid:48)|s(cid:48))p(s(cid:48 )|s, a) da(cid:48) ds(cid:48)(cid:21) (cid:90) consistency of presentation, we present (soft) Bellman update: this as a rp(r|s, a) + γ [Qπ(s(cid:48), a(cid:48)) − α log π(a(cid:48)|s(cid:48))]] = Er,s(cid:48)∼E [r + γEa(cid:48)∼π [r + γ [Qπ(s(cid:48), π(s(cid:48), η; θ)) − α log π(s(cid:48), η; θ)]] = Er,s(cid:48)∼E,η∼N (0,I) the policy distribution as assumption about last line we make the same 0.94
(N.B. : the iteration, (NB)。 反復; 反復 0.50
amortizing Qπ(s, a) = amorting~ Qπ(s, a) = 0.79
in the where the objective therefore repeatedly applying the では したがって、目的は繰り返し適用されます。 0.63
the part of is (15) isの部分は (15) 0.81
(16) (17) dr (16) (17) 博士 0.79
(18) in SVG. where SVGで18)。 どこに 0.62
For where rise のために どこに 上昇 0.62
. conventional involves and 3 . 従来は 3 0.72
英語(論文から抽出)日本語訳スコア
of (19) (20) ですから (19) (20) 0.69
Similarly for is as requires 同様に は 必要に応じて 0.70
chain rule chain + rule 0.74
and ) − α log π(a(cid:48)|s(cid:48))) そして ) − α log π(a(cid:48)|s(cid:48)) 0.83
namely the objective to maximize function つまり目的は 機能を最大化する 0.66
the directly write can At point we this down objective actor/policy, the expected return and entropy, i.e., Eq 17. 直接書き込みは、この客観的なアクター/政治、期待されるリターンとエントロピー、すなわちEq 17 を可能とします。 0.70
This follows the method for determining in DPG (Eq 4): the policy gradient for (cid:2)Ea∼π (cid:2)Q(s, a; θQ) − α log π(a|s)(cid:3)(cid:3) Jπ = Es∼ρµ [V (s)] = Es∼ρµ (cid:20)(cid:16) (cid:17)(cid:17)2(ci d:21) Q(s, a; θQ) −(cid:16) critic Q, we have JQ: the r + γ(Q(s(cid:48), a(cid:48); θQ(cid:48) (21) JQ = Er,s,s(cid:48)∼ρµ,a(cid:48)∼π The to the DPG style update ‘soft’ similar gradient critic the Q-value parameters don’t depend on the gradient actor entropy term, however the additional law of the both the total derivatives. This follows the method for determining in DPG (Eq 4): the policy gradient for (cid:2)Ea∼π (cid:2)Q(s, a; θQ) − α log π(a|s)(cid:3)(cid:3) Jπ = Es∼ρµ [V (s)] = Es∼ρµ (cid:20)(cid:16) (cid:17)(cid:17)2(ci d:21) Q(s, a; θQ) −(cid:16) critic Q, we have JQ: the r + γ(Q(s(cid:48), a(cid:48); θQ(cid:48) (21) JQ = Er,s,s(cid:48)∼ρµ,a(cid:48)∼π The to the DPG style update ‘soft’ similar gradient critic the Q-value parameters don’t depend on the gradient actor entropy term, however the additional law of the both the total derivatives. 0.94
Here we write down the gradients directly: (cid:20)(cid:16) (cid:17)(cid:17)2(ci d:21) Q(s, a; θQ) −(cid:16) Critic: ∇θQJ ≈ ∇θQEr,s,s(cid:48)∼ρπ,η∼N (0,I) ) − α log π(a(cid:48)|s(cid:48)))|a(cid:48)=π(s(cid:48),η) r + γ(Q(s(cid:48), a(cid:48); θQ(cid:48) . ここで、勾配を直接記す: (cid:20)(cid:16) (cid:17)(cid:17)2(ci d:21) Q(s, a; θQ) −(cid:16) 批判的: (cid:48) π(a(cid:48)|s(cid:48))|a(cid:48)=π(s(cid:48)) r + γ(Q(cid:48), a(cid:48) θQ(cid:48) r + γ(cid:48) 。 0.86
(22) (cid:2)(cid:0)−∇θπ (cid:0)Q(s, a; θQ) − α log π(s, η; θπ)(cid:1)(cid:1)|a=π(s,η)∇θπ π(s, η; θπ)(cid:3) . (22) (cid:2)(cid:0)− π (cid:0)Q(s, a; yQ) − α log π(s, s; yπ)(cid:1)(cid:1)|a=π(s, y) π π(s, y; yπ(cid:3) 。 0.86
Actor: log π(a|s) + ∇a ∇θπ J ≈ Es∼ρπ,η∼N (0,I) (23) remains What entropy/reward trade-o(cid:29) in Eq temperature α, which balances the to be optimized is training using an approximation to In [2] the learn this during authors optimization, 15. the mean trajectory entropy H is constraint. アクター: log π(a|s) + .a >θπ J . Es.ρπ,η.N (0,I) (23) 残る Eq 温度 α におけるエントロピー/逆のトレーディング-o(cid:29) のバランスは、著者最適化において [2] への近似を用いたトレーニングであり、平均トラジェクトリエントロピー H は制約である。 0.77
the where DPG → SVG → SAC 1.4 Having outlined DPG, SVG(0), and SAC we are now in a position to directly compare all the Critic do by observing We this colors and Actor objectives, highlighting (cid:2)Qθ(s, a) − α log π(a|s)|a=fφ(s,η) (cid:3) that are attributable to each: (cid:104) Jπ = Es∼E,η∼N (0,I) (Qθ(s, a) − (r + γ(Qθ(s(cid:48), a(cid:48)) − α log π(a(cid:48)|s(cid:48)))))2 JQ = Er,s,s(cid:48)∼E,η∼N (0,I) terms introduced in terms and SVG(0), by introduced pink are the natural progression of DPG to SAC: DPG introduces that allows the learning of policies through Q-learning over continuous action spaces. the where DPG → SVG → SAC 1.4 Having outlined DPG, SVG(0), and SAC we are now in a position to directly compare all the Critic do by observing We this colors and Actor objectives, highlighting (cid:2)Qθ(s, a) − α log π(a|s)|a=fφ(s,η) (cid:3) that are attributable to each: (cid:104) Jπ = Es∼E,η∼N (0,I) (Qθ(s, a) − (r + γ(Qθ(s(cid:48), a(cid:48)) − α log π(a(cid:48)|s(cid:48)))))2 JQ = Er,s,s(cid:48)∼E,η∼N (0,I) terms introduced in terms and SVG(0), by introduced pink are the natural progression of DPG to SAC: DPG introduces that allows the learning of policies through Q-learning over continuous action spaces. 0.99
DDPG introduces that heuristics allows SVG introduces the of learning in DPG. DDPG はヒューリスティックスが SVG に DPG の学習方法を導入することを示唆している。 0.66
of stochastic policies This uses the pathwise derivative SAC leverages the policy variance learning in amortized inference by ensuring a maximum-entropy action distribution for traditional maximum return objective. 確率的ポリシー パスワイズ微分 SAC は、従来の最大戻り目標に対する最大エントロピー作用分布を保証することで、償却推論におけるポリシー分散学習を活用する。 0.72
the policy iteration framework, allow the use of neural network function approximators. ポリシーイテレーションフレームワークは、ニューラルネットワーク関数近似器の使用を可能にする。 0.68
the limiting model-free and amortized Gaussian policy. 制限モデルなしと償却ガウス政策。 0.62
three approaches. the components (cid:105) (24) (25) SAC. 3つのアプローチ 成分 (cid:105) (24) (25) SAC。 0.78
Here we including the deterministic policy gradient, ここでは 決定主義的な政策勾配を 含みます 0.68
stochastic policies, in the Q-learning policy improvement through the 教育によるQ学習政策改善における確率的政策 0.73
its through the addition of その を通して 追加。 0.65
an entropy term into entropy (複数形 entropys) 0.60
case SVG(0) framework proposed case SVG(0)フレームワークの提案 0.91
|a(cid:48)=fφ(s(cid:48),η) by |a(cid:48)=fφ(s(cid:48)) 0.85
in where describe 1. the で を記述する。 はあ? 0.50
constrained constrained~ 0.66
any given state the いかなる州でも はあ? 0.47
in di(cid:29)erent in di(cid:29)erent 0.92
green are 2. 3. idea 緑 は 2. 3. 思想 0.75
4 4 0.85
英語(論文から抽出)日本語訳スコア
based on DDPG, two Q-functions, DDPGに基づく。 2つのQ関数。 0.61
• • algorithms Policy • • アルゴリズム政策 0.81
and introduces taking then 取り方を紹介し じゃあ 0.50
several heuristics their minimum when いくつかのヒューリスティックは 0.42
We observe three considered as belonging to the therefore family, namely same can be all that ‘O(cid:29)-Policy Continuous Generalized policy the Iteration’, where step evaluation represents a gradient step along Jπ. それゆえの族に属すると考えられる3つの状態、すなわち 'O(cid:29)-Policy Continuous Generalized Policy the Iteration' は、ステップ評価が Jπ に沿った勾配ステップを表す。 0.73
All and policy improvement step along JQ, a gradient these that distinguishes entropy objective. すべてと政策改善は、エントロピーの目的を区別する勾配であるJQに沿って進みます。 0.59
there and whether approaches an additional is is deterministic, actor is whether the We note that ascent of the been derived using standard gradient function (as the in SAC policy has value and similarly the DPG policy gradient can be derived as [8]), a KL-minimization (as in [1]). ここで、追加的なアプローチが決定論的であるかどうかは、アクターが標準勾配関数(SAC ポリシーに値があり、同様に DPG ポリシーの勾配は[8]、KL 最小化 ([1] のように) を用いて導出されることに注意するかどうかである。 0.78
Practical Reinforcement Learning 2 aforementioned approaches have Two methods derived from the emerged as being most popular, namely entropy (cid:27)rst TD3 the DDPG derived SAC with adjustment [2] [15]. 実用強化学習2では,最も普及したエントロピー(cid:27)rst TD3とDDPG由来のSACと調整した[15]の2つの手法が提案されている。 0.73
appear and At glance, it may both approaches have coincidental success levels of achieved similar tasks, control in continuous that shows brie(cid:30)y explain the but closely related. 一見したところ、この2つのアプローチには、達成された同様のタスクの偶然の成功レベルがあり、brie(cid:30)を示しながら、密接な関係を示す連続的なコントロールがあるかもしれません。 0.54
We analysis that such as OpenAI Gym [16], above they are the merits of TD3, and understand how this has in(cid:30)uenced SAC. 我々は,OpenAI Gym [16] などのTD3のメリットを解析し,これが (cid:30)uenced SACにどのような影響を及ぼすかを理解する。 0.74
TD3 2.1 [15] TD3 is • Training overestimation bias. TD3 2.1 [15] TD3 は • トレーニング過大評価バイアスである。 0.67
Update Add noise to the target policy action during critic training, making it harder the critic. アップデート 批判訓練中のターゲットポリシーアクションにノイズを加えることで、批判を難しくする。 0.71
exploit statea Q-function and a and instead trains SAC paper The original [1] does not train two Q-functions, SAC ‘applied’ function. exploit statea q-function and a and train sac paper the original [1] cannot train two q-functions, sac ‘applied’ function。 0.76
value (V) the Furthermore trade-o(cid:29) between entropy and reward is (cid:27)xed. value (V)エントロピーと報酬の間のさらにトレードo(cid:29)は(cid:27)xedです。 0.71
The function, the paper to trains state-value and TD3, similar two Q-functions instead removes [2] expected policy entropy (a automatically adjusts function of some the temperature trade-o(cid:29) to ensure in their original papers, TD3 action dimension). 状態値とtd3を訓練する関数は2つのq関数に類似しており、代わりに[2] の期待ポリシーエントロピー(温度トレード-o(cid:29)の機能を自動的に調整して元の論文である td3 アクションディメンションで保証する)を取り除く。 0.68
Interestingly, and SAC claim to outperform each other, and and appear that the temperature adjustment incorporation of the TD3-style Q-learning it would are there However SAC paper. 興味深いことに、SACはお互いを上回ると主張し、TD3スタイルのQ-ラーニングの温度調整が組み込まれているように見えるが、SAC論文がある。 0.63
in performance better ultimately results still key ‘applied’ the in the di(cid:29)erences between SAC and TD3 such as network architecture, learning training, namely heuristics rate, For the purposes of fair comparison, we choose these to be the same across both and batch size. ネットワークアーキテクチャ、学習トレーニング、すなわちヒューリスティックスレートなど、SACとTD3の間には、最終的に依然として重要な「適用」が行われます。公正な比較のために、これらをバッチサイズとバッチサイズの両方で同じにします。
訳抜け防止モード: パフォーマンスが向上すると、ネットワークアーキテクチャのようなSACとTD3の間のDi(cid:29)命令は、それでもキー‘apply ’となる。 学習訓練、すなわちヒューリスティックス・レート、公正比較の目的のために 両方とバッチサイズで同じものを選びます
0.70
SAC and TD3, shown in Table 1. as What 2.2 the is and DDPG is the noise One di(cid:29)erence between TD3 function training. SAC と TD3 は表1に示すように、何 2.2 と DDPG は TD3 関数訓練の間のノイズ One di(cid:29) である。 0.85
injection applied during Q-value into a stochastic one (a ∼ µ(s) +clip(N (0, I)× turns a previously deterministic mapping a = µ(s) This 0.2,−0.5, 0.5)). q-値の間を確率的 1 にあてはめる(a , μ(s) +clip(n (0, i)× は以前に決定論的な写像 a = μ(s) this 0.2,−0.5, 0.5))。 0.69
This means in fact training are collection and critic the policies used in both data that objective; deterministic a compares TD3 to how this ask SAC. これは、実際にトレーニングは、目的とするデータの両方で使用されるポリシーを収集し、批判することを意味します。 0.53
We may stochastic, making to closer actor evidently, from the mean action should reduce expected veering selected by the deterministic this question, we return, so what does this stochasticity provide? 平均的な行動は、決定論者によって選択される期待のヴェアリングを減少させるべきであるので、我々は戻り、この確率性は、何をもたらすのか? 0.64
To explore split our analysis into two e(cid:29)ect on the Actor. 解析を Actor 上の 2 つの e(cid:29)ect に分割します。 0.78
and the e(cid:29)ect on the Critic, the sections: e(cid:29)ect on the Critic, the section 0.71
frequently than critic updates. 頻繁に更新を批判する。 0.69
the actor e(cid:29)ect of Gaussian exploration? 俳優は e(cid:29)ect of Gaussian exploration? 0.84
target parameters target パラメータ 0.83
and actor parameters アクタのパラメーターは 0.55
less to improve upon it. より少なく それを改善するために。 0.68
These include: evaluating これら 含まれます 評価 0.65
to address Q-function for へ アドレスQ関数 ですから 0.64
to directly and 5 直接に そして 5 0.76
英語(論文から抽出)日本語訳スコア
Size Hyperparamater Collection Steps Random Action Steps Network Hidden Layers Learning Rate Optimizer Replay Bu(cid:29)er Action Limit Exponential Moving Averaging Parameter (Critic Update:Environment Step) Ratio (Policy Update:Environment Step) Ratio Has Target Policy? サイズ Hyperparamater Collections ランダムアクションステップ ネットワーク隠れレイヤ 学習速度オプティマイザ Replay Bu(cid:29)er Action Limit Exponential moving Averaging Parameter (Critic Update:Environment Step) Ratio (Policy Update:Environment Step) Ratio Has Target Policy? 0.81
Expected Entropy Target Policy Log-Variance Limits Target Policy σ Target Policy Clip Range Rollout Policy σ Table 期待エントロピー目標政策 ログ分散制限 目標政策 σ 目標政策 クリップ範囲 ロールアウト政策 σ 表 0.85
2 Yes N/A N/A 0.2 [-0.5, 0.5] 0.1 1: Hyperparameters used in O(cid:29)Con3 2 はい N/A N/A 0.2 [-0.5, 0.5] 0.1 1: O(cid:29)Con3におけるハイパーパラメータ 0.61
1,000 10,000 : 256 256 3 × 10−4 Adam 1 × 106 [−1, 1] 5 × 10−3 1 1,000 10,000 : 256 256 3 × 10−4 Adam 1 × 106 [−1, 1] 5 × 10−3 1 0.86
Algorithm TD3 SAC アルゴリズムTD3 SAC 0.72
1 No −dim(A) [-20, 2] N/A N/A N/A 1 No −dim(A) [-20, 2] N/A N/A N/A 0.80
added noise and write We simplify analysis by assuming all is diagonal Gaussian2, E(cid:29)ect on Critic: 1-D actions without a Performing the deterministic objective as JD. 追加ノイズと書き込み すべてを対角ガウス2, E(cid:29)ect on Critic: 1-D action without a Performing the Deterministic objective as JD と仮定して解析を簡略化する。 0.81
We also assume loss of generality. 一般性の喪失も想定している。 0.56
the objective maximized by this Gaussian stochastic policy, we (cid:27)nd that expansion of series Taylor the (JR) actor as (see Appendix A for proof): (cid:3) (cid:2)∇2 σ2 aQ(st, a)|a=µ(st) JR ≈ JD + (26) Est∼E 2 to is This the deterministic the of variance (cid:27)xed the objective with term proportional additional an (Hessian for multi-dimensional policy, as well as the critic with respect the of actions) to 2nd derivative between the following term, noting actions. このガウス的確率的方針によって最大化される目的は、(cid:27) テイラー級数(JR)アクターを(証明のためのアペンディクスAを参照)として拡張することである: (cid:3) (cid:3) =2 σ2 aQ(st, a)|a=μ(st) JR sh JD + (26) Est:E2 to is this the deterministic the deterministic the variance (cid:27)xed the objective with term proportional additional an (Hessian for multi-dimensional policy, and as the critic of action) to the 2nd derivative between the following term, noting action。 0.84
Unpacking and (JR) stochastic residual the that latter this leads to: (JD) objectives, deterministic (cid:2)∇2 (cid:3) σ2 JR − JD ≈ aQ(st, a)|a=µ(st) (27) Est∼E 2 the all critic Q for that maximize actions able trained policy that to produce is a well consider First, let us the Hessian must the of order term must (equivalently, value 2nd be negative that states. JD) Objects, deterministic (cid:3) σ2 JR − JD > aQ(st, a)|a=μ(st) (27) Est ^ Est ^ 2 the all critic Q for the action able trained policy that produce is a well consider First, let the Hessian must the of order term (equivalently, value 2nd be negative that state。
訳抜け防止モード: unpacking and ( jr ) stochastic residual 後者は : ( jd ) objectives につながる。 決定論的 (cid:2)~2 (cid:3 ) σ2 jr − jd , aq(st,) a)|a=μ(st ) (27 ) エステイ 2 生産する訓練された政策を最大化するためのすべての批評家qは、まずよく検討される。 ヘッセン語は順序項でなければならない(同値)。 値 2 は、状態が負である。
0.77
This means the return JD being lower stochastic any non-zero σ2 will Evidently, result in the be negative semi-de(cid:27)nite) . つまり、戻り jd は非零 σ2 よりも低い確率的であり、結果として負の半デ(cid:27)nite)となる。 0.68
bound the realistically lower can only ever implies than JR. 現実的に低いのは JRよりしか意味がない。 0.82
This stochastic policy objective JR the that deterministic objective JD. この確率的政策目的はJRがその決定論的目標であるJDである。 0.54
freedom However in Gaussian exploration we (cid:27)x therefore the only degree of this σ2 term), is in the 0th order term itself. しかし、ガウス探検における自由(cid:27)xはこのσ2項の唯一の次数である)は、0次項自身である。 0.72
Evidently we want second-order second-order the magnitude viable. 明らかに、二階二階は実行可能なマグニチュードが欲しい。 0.41
However is not term positive therefore making term can the of this twice di(cid:29)erentiable w.r.t. しかし、正の項ではないので、この項を2回、di(cid:29)erentiable w.r.t とすることができる。
訳抜け防止モード: しかし、必ずしも肯定的ではないので、 di(cid:29)erentiable w.r.t.
0.53
identity the reduced by making Q ‘smoother’. IdentityはQを「smoother」にすることで削減される。 0.68
be Since Q is a, we can invoke ∇2 aQ(s, a) (cid:22) βI the that [17], than β, where implying largest eigenvalue of the Hessian of Q is smaller 2Action clipping very nearly Gaussian still but this assumption untrue, technically makes 図 Q は a であるので、Q のヘッシアンの最大固有値が 2Action のクリッピングがほとんどガウス的に近いことを暗示する β よりも ×2 aQ(s, a) (cid:22) βI を β と呼ぶことができる。
訳抜け防止モード: Q が a であるから、s2 aQ(s, a) (cid:22 ) βI はその[17 ] Q の Hessian の最大の固有値を意味する β よりも小さい 2Action のクリッピングはガウス的に近い。 しかし この仮定は 技術的には
0.79
to be non-zero, a policy that maximizes Q (i.e., 非ゼロであるために、qを最大化する政策(すなわち、) 0.67
in reality policies are 6 現実の政策では は 6 0.72
英語(論文から抽出)日本語訳スコア
where, the Lipschitz is どこ? Lipschitz (複数形 Lipschitzs) 0.51
smoother with respect approach. 尊重のアプローチでより滑らか。 0.59
is β Q that function [18], approximating the E(cid:29)ect proaches. is β Q that function [18], approximating the E(cid:29)ect proaches. 0.89
the magnitude of ∇2 to minimize aQ(s, a), we must constant of Q. aQ(s, a) を最小化するためには、Q の定数でなければならない。 0.70
Therefore, learn a viewed as spectral norm regularizer of a can be to actions. したがって、アクションのスペクトルノルム正規化として見たことを学習します。 0.65
This the Q stability of is used in [15] to ensure the critic the and the mechanism that can be viewed as that we in SAC as by default behavior smoothing this get be noted It must this entropy objective. このQの安定性は[15]で、批評家がSACで私たちがこれを平滑にするデフォルトの振る舞いとして見ることができるメカニズムを確実にするために使用され、このエントロピーの目的に注意する必要があります。 0.63
to its learned policy has non-zero variance due non-zero σ2 variance term also has The forced implications on Actor: some minimum entropy per to ensure a non-zero variance SAC learns Est∼E[Eat∼π[− log π(at|st)]] > H s.t. 学習されたポリシーには、非零分散を持つ σ2 分散項は、アクターに強制的に影響する: 最小エントロピー per は、非零分散sacがエステー[eat,π[− log π(at|st]] > h s.t を学習することを保証する。 0.62
[Qπ(s0, a0)] max π (cid:17)(cid:105) (cid:104) (cid:16) can write a Gaussian policy, we √ > H (29) s.t. qπ(s0, a0)] max π (cid:17)(cid:105) (cid:104) (cid:16) はガウスの方針を記述することができる。 0.74
Est∼E [Qπ(s0, a0)] 2πe σ(st) log max π in [2]) learned by is of policy variance SAC (see optimization is non-trivial This amount the as 5 Sec. Est*E [Qπ(s0, a0)] 2πe σ(st) log max π in [2]) はポリシー分散 SAC によって学習される(最適化は非自明である参照)。 0.82
for dependency above). 依存性は上記の通り)。 0.52
However the policy (hence the st the optimization for a policy with (cid:27)xed variance σ, trivial becomes critic3 (which the and simply maximize policy over state dependency, can drop the as we (cid:16) (cid:17) is done in standard actor training): √ > H s.t. しかし、(従って、st が (cid:27)xed variance σ, trivial を持つポリシーの最適化は、critter3 となる(このポリシーは、状態依存に対して、単にポリシーを最大化することで、我々が (cid:16) (cid:17) を落とすことができる)。 0.76
(30) log σ 2πe of a 0.1, deviation standard such view this a policy entropy of ≈ −0.884 nats. (30) log σ 2πe of a 0.1, deviation standard such this view this a policy entropy of sh −0.884 nats。 0.81
ensures exploration with a maximum entropy policy that 最大のエントロピー政策で 探検を確実にし 0.75
to entropy based aptrajectory timestep: ∀t (28) to entropy based aptrajectory timestep: t (28) 0.81
max π policy which max π ポリシーです。 0.84
[Qπ(s0, a0)] has [Qπ(s0, a0)] 0.84
in TD3, we deployed ∀t. TD3では 配備 だ。 0.52
as ∀t. can として だ。 できる 0.56
for In case the performing Why not SVG(0)? ですから なぜSVG(0)をしないのですか? 0.64
2.3 stochastic, candidate principle, In appears to be SVG(0) a strong for policy it is training; not reality, hyperparameters. 2.3 確率的、候補原理 In は SVG(0) であり、それは訓練である;現実ではなく、ハイパーパラメータである。 0.71
and computation adds which term, entropy an incorporate the In SVG(0) policy tends the variance head of evaluated are deterministic, environments the to 0 very quickly. In SVG(0) ポリシーを組み込んだエントロピーは、評価された分散ヘッドが決定論的であり、環境が 0 から 0 に非常に早く変化する傾向にある。 0.70
The reason for this is outlined in Sec. その理由はSecで概説されている。 0.65
2.2. As a consequence, the resultant algorithm is e(cid:29)ectively DDPG. 2.2. その結果、結果のアルゴリズムは e(cid:29) 的に DDPG となる。 0.77
Indeed this is supported in the 0th order Thompson analysis performed in Appendix A, where only the relatively small σ. 実際、これは、比較的小さなσしか持たない Appendix A で実行される 0 次トンプソン解析において支持される。 0.65
We term remains algorithm for this and include 1, in Figure e(cid:29)ect illustrate for illustrative purposes ‘TDS’ in O(cid:29)Con3. 我々はこのためにアルゴリズムを使い続け、図 e(cid:29)ect で O(cid:29)Con3 の図 'TDS' を例示します。
訳抜け防止モード: これをアルゴリズムで表現し, 1 を含む。 in Figure e(cid:29)ect illustrate for illustrative purpose ‘TDS ’ in O(cid:29)Con3.
0.93
as Experiments 3 these experiments, we run both algorithms for 5 seeds on 4 di(cid:29)erent MuJoCo environments: HalfCheeFor tah, Hopper, Walker2d, [19] determine whether and Walker2d performance (cid:27)nal performance is is in HalfCheetah statistically indistinguishable SAC does 3Consider policies, 実験3では、4 di(cid:29)erent MuJoCo環境上で5つのシードのアルゴリズムを実行する。 HalfCheeFor tah, Hopper, Walker2d, [19] Walker2dのパフォーマンス(cid:27)がHalfCheetahの統計的に区別不能なSACが3Considerポリシーを実行しているかどうかを決定します。 0.74
two-tailed Welch’s and Ant. two‐tailed Welch's and Ant 0.89
We statically signi(cid:27)cantly di(cid:29)erent. 静的シグニ(cid:27)cantly di(cid:29)erent。 0.71
Observing Table in Ant, learns quicker the opposite in Hopper, can always (cid:27)nd an H such that the constraint the primal without into a maximization of Antのテーブルを観察し、Hopperの反対をより速く学習し、常に(cid:27)プライマリを最大化せずに制約するようにHを曲げることができます。 0.63
convincingly outperform TD3, that therefore 説得力のあるTD3を上回ります 0.51
to t-test 2, Ant see Appendix B); is true. to t-test 2, Ant see Appendix B); true です。 0.86
(although TD3 but inequality evaluates constraint. (ただしtd3は 不平等は制約を評価します 0.50
for a (cid:27)xed σ we the dual a (cid:27)xed σ に対し、双対である 0.65
then perform a simply collapses では 実行します 単に崩壊し 0.63
does since equality for to an exact それ以来 平等を 正確に言うと 0.64
this all a これ 全部 あ... 0.53
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Variance of rollout policies on HalfCheetah 図 1:ばらつき HalfCheetah のロールアウトポリシー 0.70
Authors’ Results 3.1 results completeness we compare For from each algorithm’s the approach. 著者の結果 3.1 は各アルゴリズムのアプローチで比較した完全性である。 0.85
The either implementation does not unfairly penalize that our to generally match, or note implementation appears the original seeds5; code doesn’t code, author’s always outperform the and Walker2d). どちらの実装も、私たちの一般的に一致することを不当に罰するものではありません。または、メモの実装は元のシーズ5が表示されます。コードがコードではなく、著者は常にWalker2dよりも優れています。
訳抜け防止モード: どちらの実施もそれを不当に罰しない 当社のto generally match, or note 実装は、オリジナルの seed5 のように見える。 コードにはコードがなく、著者は常にwalker2dよりも優れています)。
0.61
in [15], we do not discard ‘failure’ 15]では,我々は‘障害’を捨てない 0.66
to ensure our code with ours available results 3 and 44. 私たちのコードで利用可能な結果3と44を確実にする。 0.65
We are shown in Tables that unlike code. コードとは違って表に示されます。 0.67
Note the exceeds, authors’ this may explain why our implementation (such as Hopper environments stable especially on less 著者のこの説明は、我々の実装(ホッパー環境など)が特に少ない方で安定している理由を説明するかもしれない。 0.53
t-Test Result Environment p t 4.29 0.00927 HalfCheetah -2.92 0.0293 Hopper -0.481 0.653 Ant 0.155 Walker2d 1.59 2: Two-tailed Welch’s t-test t-Test Result Environment p t 4.29 0.00927 HalfCheetah -2.92 0.0293 Hopper -0.481 0.653 Ant 0.155 Walker2d 1.59 2: Two-tailed Welch's t-test 0.58
results Table SAC Return 結果 テーブル SACリターン 0.78
Ours 16, 784 ± 292 3, 142 ± 654 4, 987 ± 784 5, 703 ± 408 Ours 16, 784 ± 292 3, 142 ± 654 4, 987 ± 784 5, 703 ± 408 0.85
Timesteps Environment 3 × 106 HalfCheetah 1 × 106 Hopper 1 × 106 Ant 3 × 106 Walker2d SAC Implementation Comparison to Author’s Code 3: Table is here code and here results provided in these Timesteps Environment 3 × 106 HalfCheetah 1 × 106 Hopper 1 × 106 Ant 3 × 106 Walker2d SAC implementation Comparison to Author's Code 3: Table is here code and here results provided in these results provided in them 0.96
Author 12, 219 ± 4, 899 3, 319 ± 175 3, 845 ± 759 5, 523 ± 466 Author 12, 219 ± 4, 899 3, 319 ± 175 3, 845 ± 759 5, 523 ± 466 0.85
respectively. We tabulate それぞれ。 私たち tabulate~ 0.66
repos. Results are レポジトリ。 結果 は 0.60
the max 4Authors’ SAC and TD3 seeds) performance up to and including (averaged over 5See discussion here. マックスは 4AuthorsのSACとTD3のシード)パフォーマンスは、(平均5つ以上の議論を含む。 0.67
the Timesteps the column. 8 05000010000015000020 0000250000Timesteps1 012109106103100Test Action VarianceSACTD3SVG(0) 時間経過 列だ 8 05000010000015000020 0000250000Timesteps1 012109106103100Test Action VarianceSACTD3SVG(0) 0.61
英語(論文から抽出)日本語訳スコア
(a) HalfCheetah (a)HalfCheetah 0.75
(b) Hopper (c) Ant SAC and TD3 Training Curves on MuJoCo Environments. (b)ホッパー (c) MuJoCo環境におけるAnt SACおよびTD3トレーニング曲線。 0.78
2: (d) Walker2d 2: (d) Walker2d 0.85
Figure TD3 Return Author 9, 637 ± 859 3, 564 ± 115 4, 372 ± 1, 000 4, 683 ± 540 図 TD3戻り Author 9, 637 ± 859 3, 564 ± 115 4, 372 ± 1, 000 4, 683 ± 540 0.80
Timesteps Ours 1 × 106 12, 804 ± 493 1 × 106 3, 498 ± 99 1 × 106 5, 700 ± 334 4, 181 ± 607 1 × 106 Implementation Comparison to Author’s Code timesteps ours 1 × 106 12, 804 ± 493 1 × 106 3, 498 ± 99 1 × 106 5, 700 ± 334 4, 181 ± 607 1 × 106 implementation comparison to author's code (英語) 0.89
Environment HalfCheetah Hopper Ant Walker2d Table 4: TD3 Conclusion 4 it SAC are and In related show that conclusion, we to possible TD3 is and algorithms, that algorithms, namely ‘O(cid:29)-Policy Continuous same general belonging to the categorize them as Generalized Policy Iteration’. 環境ハーフCheetah Hopper Ant Walker2d Table 4: TD3 Conclusion 4 it SACはSACであり、関連する結論では、可能なTD3はアルゴリズムであり、アルゴリズム、すなわち‘O(cid:29)-Policy Continuous same general from the category them as Generalized Policy Iteration’である。 0.84
We make an oft-forgotten comparison complete this against by comparing approach SVG(0). SVG(0) のアプローチを比較することで, 忘れられた比較が完了する。 0.77
We then show that by matching hyperparameters, similar is more their performance statistically indistinguishable; than is often shown in the literature, and can be can in furthermore TD3 fact this computationally e(cid:28)cient. 次に、ハイパーパラメータのマッチングにより、同様のことが統計的に区別できないことを示し、文献でよく見られることよりも、計算学的にe(cid:28)cientであることがTD3の事実に示される。
訳抜け防止モード: 次にお見せするのは ハイパーパラメータをマッチングすることで 統計的に区別できないパフォーマンスが ; 文献でしばしば示されるよりも、さらに td3 ではこの計算学的に e(cid:28)cient である。
0.74
To make implemented both in the open-source explicit, we have link from theory to practice base O(cid:29)Con3, whereby many major code are shared for オープンソースで両方の実装を明示するために、理論からベースO(cid:29)Con3へのリンクがあり、多くの主要なコードが共有されています。 0.65
outperform SAC on certain environments whilst 特定の環境においてSACを上回る 0.64
being more closely family of より多く 親密な家族 0.66
elements of the each algorithm. 要素。 はあ? 各アルゴリズム。 0.59
code 9 0.00.51.01.52.02.53. 0Timesteps1e60500010 00015000Episode ReturnSACTD30.00.20. 40.60.81.0Timesteps1 e60100020003000Episo de ReturnSACTD30.00.20. 40.60.81.0Timesteps1 e6010002000300040005 000Episode ReturnSACTD30.00.51. 01.52.02.53.0Timeste ps1e6010002000300040 005000Episode ReturnSACTD3 コード 9 0.00.51.01.52.53.0Ti mesteps1e60500010005 000EpisodeReturnSACT D30.00.20.60.81.0Tim esteps1e601000200030 00EpisodeReturnSACTD 30.00.20.40.60.81.0T imesteps1e6010002000 30005000EpisodeRetur nSACTD30.00.51.51.52 .52.53.0Timesteps1e6 01000200030005000Epi sodeReturnSACTD3 0.57
英語(論文から抽出)日本語訳スコア
[4] [5] [6] [4] [5] [6] 0.85
[7] and Applications. [7] アプリケーションも。 0.70
2018. al. Vol. 2018. アル Vol。 0.66
32. Curran Associates, 32. Curran Associates 0.70
References “Soft Actor-Critic: O(cid:29)-Policy Maximum Entropy Deep Reinforcement [1] Tuomas Haarnoja et al. ソフトアクター批判:O(cid:29)-Policy Maximum Entropy Deep Reinforcement [1] Tuomas Haarnoja et al.”を参照。 0.84
Learning with a 2018. Stochastic Actor”. 2018年に学ぶ。 Stochastic Actor」の略。 0.64
arXiv: 1812.05905 al. arXiv:1812.05905 al。 0.78
Tuomas Haarnoja et [2] Soft Actor-Critic Algorithms [cs.LG]. Tuomas Haarnoja et [2] Soft Actor-Critic Algorithms [cs.LG] 0.94
In: Advances “When to Trust Your Model: Model-Based Policy Optimization”. In: Advances “When to Trust Your Model: Model-Based Policy Optimization”。 0.92
Michael Janner et al. Michael Jannerら。 0.61
[3] Inc., by H. Wallach et Systems. H. Wallach et Systemsによる[3] Inc.。 0.92
Ed. Information Processing in Neural 12519–12530. エド。 ニューラル12519-12530の情報処理 0.68
2019, pp. Backpropagating “Model-Augmented Actor-Critic: Ignasi Clavera, Yao Fu, and Pieter Abbeel. 2019年、p。 モデルAugmented Actor-Critic: Ignasi Clavera, Yao Fu, Pieter Abbeel」をバックプロパゲート。 0.80
on Learning Representations. 2020. through Paths”. 学習表現について。 2020年、『パス! 0.61
In: International Conference al. 国際会議(国際会議)。 0.74
Yinlam Chow et arXiv: 2006.05443 Policy Optimization. Yinlam Chow et arXiv: 2006.05443 Policy Optimization 0.90
2020. Variational Model-based [cs.LG]. 2020. 変動モデルに基づく[cs.LG]。 0.79
“E(cid:28)cient O(cid:29)-Policy Meta-Reinforcement Learning via Probabilistic Context Kate Rakelly et al. E(cid:28)cient O(cid:29)-Policy Meta-Reinforcement Learning via Probabilistic Context Kate Rakelly et al。 0.87
Proceedings and by Kamalika Chaudhuri ed. 進行とKamalika Chaudhuri edによる。 0.69
In: Variables”. In: Variables”。 0.79
Salakhutdinov. Salakhutdinov 0.47
Vol. 97. of Ruslan 2019, pp. Vol。 97., Ruslan 2019, pp。 0.79
June Machine Learning Research. 6月 機械学習研究。 0.81
Long Beach, California, USA: PMLR, 5331–5340. カリフォルニア州ロングビーチ:PMLR、5331-5340。 0.67
for Maximum Entropy Policy Gradient Method “Soft Wenjie Shi, Shiji Song, and Cheng Wu. 最高のエントロピーの方針のグラデーション方法のために「柔らかいWenjie Shi、Shiji SongおよびCheng Wu。 0.77
Deep Reinforcement Learning”. In: Proceedings the Twenty-Eighth International of Joint ConferIJCAI-19. 深層強化学習」。 In:Proceings the Tighty-28h International of Joint ConferIJCAI-19 0.68
Intelligence Joint Conferences on Arti(cid:27)cial International Intelligence, on Arti(cid:27)cial ence 3425–3431. 英語) Intelligence Joint Conferences on Arti (cid:27)cial International Intelligence, on Arti (cid:27)cial ence 3425–3431 0.85
doi: 10.24963/ijcai.2019/ 475. 10.24963/ijcai.2019/ 475 0.46
July 2019, pp. 2019年7月、p。 0.65
Organization, by Eric P. Xing and Tony “Deterministic Policy Gradient Algorithms”. Eric P. Xing と Tony “Deterministic Policy Gradient Algorithms” による組織。 0.83
In: David Silver et al. で:David Silverら。 0.61
PMLR, 1. Bejing, China: Jebara. PMLR, 1。 中国・北京:ジェバラ。 0.66
Vol. 32. Proceedings of Machine Learning Research 2014, pp. Vol。 32. Proceedings of Machine Learning Research 2014, pp。 0.81
387–395. 2018. 387–395. 2018. 0.78
Sutton and Andrew G Barto. サットンとアンドリュー・G・バルト。 0.50
Reinforcement Richard S Timothy P. Lillicrap et al ICLR (Poster). Richard S Timothy P. Lillicrap et al ICLR (Poster) の略。 0.83
2016. “Learning Continuous Control Policies et Nicolas Heess Stochastic Value Gradients”. 2016. 継続的コントロールポリシとNicolas Heess Stochastic Value Gradients”を学習する。 0.83
al. In: al. アル In: al。 0.56
Curran Associates, Information Processing in Neural Advances 2944–2952. Curran Associates, Information Processing in Neural Advances 2944–2952。 0.96
Inc., 2015, pp. 2015年、p.c.。 0.63
and Max Welling. そしてマックス・ウェリング。 0.72
Diederik P. Kingma In: 2nd International 2014, Conference Conference on Learning Representations, 14-16, 2014. dieerik p. kingma in: 2nd international 2014 conference conference on learning representations, 14-16, 2014 (英語) 0.84
Proceedings. Track “Monte Carlo Gradient Estimation in Machine Learning”. 進行中。 Monte Carlo Gradient Estimation in Machine Learning”をトラックする。 0.67
Shakir Mohamed et In: al. Shakir Mohamed et In: al。 0.81
(2020), pp. (2020年)、p。 0.79
21.132 Machine Learning Research “Modeling Purposeful Adaptive Behavior with the Principle Brian D. Ziebart. 21.132 機械学習研究「原理的Brian D. Ziebartによる目的適応行動のモデル化」 0.75
isbn: 9781124414218. isbn: 9781124414218。 0.77
2010. Entropy”. 2010. エントロピー」。 0.70
PhD thesis. USA, and David Meger. 博士論文。 アメリカとデヴィッド・メガー。 0.63
Scott van Hoof, Fujimoto, Herke 2018, pp. Scott van Hoof, Fujimoto, Herke 2018, pp. 0.85
1582–1591. 1582–1591. 0.71
ICML. In: Actor-Critic Methods”. ICML。 In: Actor-Critic Methods”。 0.83
eprint: arXiv:1606.01540. eprint: arXiv:1606.01540。 0.62
2016. al. OpenAI Gym. 2016年。 オープンAIジム。 0.71
Greg Brockman et Sébastien Bubeck. グレッグ・ブロックマンとセバスチャン・ブベック。 0.54
“Convex Optimization: Algorithms and Complexity”. 「凸最適化:アルゴリズムと複雑さ」。 0.84
In: 2015), pp. (Nov. 1935-8237. doi: 10.1561/2200000050. 2015年)、p。 (1935年~8237年)10.1561/2200000050 0.51
issn: 231–357. issn: 231-357。 0.61
8.3–4 Learn. Yuichi Yoshida and Takeru Miyato. 8.3–4 学ぶ。 吉田雄一と宮戸武。 0.54
Spectral Norm Regularization for of Deep Learning. 深層学習のためのスペクトルノルム正規化 0.77
2017. Journal of of Maximum Causal in Function Approximation Error 2017. 関数近似誤差における最大因果関係のジャーナル 0.83
June learning: An introduction. MIT press, 6月学習:紹介。 MITの記者。 0.67
Systems et 28. Ed. システム 28歳。 エド。 0.69
by C. Cortes “Auto-Encoding Variational Bayes”. コードネームはC. Cortes “Auto-Encoding Variational Bayes”。 0.67
ICLR 2014, Ban(cid:29), AB, Canada, April ICLR 2014 Ban (cid:29), AB, Canada, April (英語) 0.87
arXiv: 1705.10941 [stat.ML]. arXiv: 1705.10941 [stat.ML] 0.84
[13] [14] [15] [16] [17] [18] [13] [14] [15] [16] [17] [18] 0.85
Improving the Generalizability 改善 Generalizability (複数形 Generalizabilitys) 0.57
“Continuous control with deep reinforcement 『継続』 深い強化による制御 0.70
learning.” In: Found. 学習する。 内 見つかった 0.52
Trends Mach. “Addressing トレンドマッハ。 「加飾」 0.49
[8] [9] [10] [11] [8] [9] [10] [11] 0.85
[12] ed. by In: [12] エド で 内 0.52
ICML. 1–62. ICML。 1–62. 0.76
10 10 0.85
英語(論文から抽出)日本語訳スコア
[19] 28–35. [19] 28–35. 0.78
issn: (Jan. issn: (Jan)。 0.87
1947), pp. A Consider 1947年)、p。 考察 0.47
“The Generalization of Involved”. In: Biometrika 「関与の一般化」。 内:Biometrika 0.63
B. L. Welch. ances are biomet/34.1-2.28. B.L.ウェルチ。 ancesはbiomet/34.1-2.28である。 0.44
Objective of a Stochastic Gaussian Policy with (cid:27)xed Variance a Deterministic Policy: 確率的ガウス政策の目的 : (cid:27)xed variance a deterministic policy 0.76
’Student’s’ Problem when Several Di(cid:29)erent Population Vari34.1-2 0006-3444. doi: 10.1093/ 数回のDi(cid:29)erent Population Vari34.1-2 0006-3444. doi: 10.1093/ 0.64
(cid:104) (cid:105) Q(st, at)|at=µ(st) JD = Est∼E . (cid:104) (cid:105) Q(st, at)|at=μ(st) JD = Est 。 0.78
(cid:2)Eat∼π(at|st) [Q(st, at)](cid:3) The Random Policy is de(cid:27)ned as π(at|st) = N (at|µ(st), σ2) where σ (cid:20)(cid:90) JR = Est∼E N (at|µ(st), σ2)Q(st, at)dat = Es∼E Performing a Taylor around at = µ(s) provides: expansion of Q(st, at) Q(st, at) = Q(st, µ(st)) + ∇aQ(st, a)|a=µ(st)(at − µ(st)) ∇2 aQ(st, a)|a=µ(st)(at − µ(st))2 + . (cid:2)Eat π(at|st) [Q(st, at)](cid:3) The Random Policy is de(cid:27)ned as π(at|st) = N (at|μ(st), σ2) where σ (cid:20)(cid:90) JR = Est.E N (at|μ(st), σ2)Q(st, at)dat = Es.E Performing a Taylor around at = μ(s) provides: expansion of Q(st, at) Q(st, at) = Q(st, μ(st)) + saQ(st, a)|a=μ(st)(at − μ(st)) s2aQ(st) = aQ(st, a-μ(st) + st) . 0.97
1 + 2 is (cid:27)xed: (cid:21) 1 + 2 is (cid:27)xed: (cid:21) 0.85
address We First 0th order: アドレス 第一の 0 の順序: 0.67
the di(cid:29)erent Taylor di(cid:29)erent Taylor 0.94
. . . . 0 , . . . . 0 , 0.85
2 etc. ). 0 , 1 , separately (labeled expansion orders (cid:20)(cid:90) (cid:21) (cid:20) (cid:21) (cid:90) N (at|µ(s), σ2)Q(st, µ(st))dat = Est∼E N (at|µ(st), σ2)dat = Est∼E Q(st, µ(st)) = Est∼E [Q(st, µ(st))] = JD. 2 など ). 0 , 1 , separate (labeled expansion order (cid:20)(cid:90) (cid:21) (cid:21) (cid:90) (cid:90) N (at|μ(s), σ2) Q(st, μ(st))dat = Est.E N (at|μ(st), σ2)dat = Est.E Q(st, μ(st))) = Est.E [Q(st, μ(st))] = JD。 0.77
(cid:20)(cid:90) (cid:21) N (at|µ(st), σ2)(cid:0)∇aQ(st, a)|a=µ(st)(at − µ(s))(cid:1) dat (cid:20) (cid:21) (cid:90) (cid:18)(cid:90) (cid:20) (cid:19)(cid:21) N (at|µ(st), σ2) (at − µ(st)) dat ∇aQ(st, a)|a=µ(st) (µ(st) − µ(st))(cid:3) (cid:2)∇aQ(st, a)|a=µ(st) N (at|µ(st), σ2)atdat − µ(st) ∇aQ(st, a)|a=µ(st) (cid:21) (cid:20)(cid:90) aQ(st, a)|a=µ(st)(at − µ(s))2(cid:1) dat N (at|µ(st), σ2)(cid:0)∇2 (cid:20) (cid:21) (cid:90) N (at|µ(st), σ2)(cid:0)at − µ(s))2(cid:1) dat (cid:2)∇2 (cid:2)(at − µ(s))2(cid:3)(cid:3) ∇2 aQ(st, a)|a=µ(st) (cid:2)∇2 (cid:3) σ2 aQ(st, a)|a=µ(st)Eat aQ(st, a)|a=µ(st) 11 (cid:20)(cid:90) (cid:21) N (at|µ(st), σ2)(cid:0)∇aQ(st, a)|a=µ(st)(at − µ(s))(cid:1) dat (cid:20) (cid:21) (cid:90) (cid:18)(cid:90) (cid:20) (cid:19)(cid:21) N (at|µ(st), σ2) (at − µ(st)) dat ∇aQ(st, a)|a=µ(st) (µ(st) − µ(st))(cid:3) (cid:2)∇aQ(st, a)|a=µ(st) N (at|µ(st), σ2)atdat − µ(st) ∇aQ(st, a)|a=µ(st) (cid:21) (cid:20)(cid:90) aQ(st, a)|a=µ(st)(at − µ(s))2(cid:1) dat N (at|µ(st), σ2)(cid:0)∇2 (cid:20) (cid:21) (cid:90) N (at|µ(st), σ2)(cid:0)at − µ(s))2(cid:1) dat (cid:2)∇2 (cid:2)(at − µ(s))2(cid:3)(cid:3) ∇2 aQ(st, a)|a=µ(st) (cid:2)∇2 (cid:3) σ2 aQ(st, a)|a=µ(st)Eat aQ(st, a)|a=µ(st) 11 0.95
Now 1st order: 1 = Est∼E = Est∼E = Est∼E = Est∼E = 0. 第1次命令です 1 Est: Est = Est = Est = Est = Est = Est = Est = 0。 0.63
Now 2nd order: 2 = Est∼E = Est∼E = Est∼E = Est∼E 次は2番です。 エスト=Est=Est=Est=Est=Est=Est 0.44
英語(論文から抽出)日本語訳スコア
So putting it all ですから それ 全部 0.67
( , 1 , 0 2 ( , 1 , 0 2 0.85
) together: (cid:2)∇2 aQ(st, a)|a=µ(st) Est∼E E(cid:28)ciency Gain of TD3 in Ant ) 一緒に (cid:2) =2 aQ(st, a)|a=μ(st) Est.E E(cid:28)ciency Gain of TD3 in Ant 0.76
JR = JD + σ2 2 JR=JD+ σ2 2 0.84
(cid:3) B Figure (cid:3) B 図 0.78
3: E(cid:28)ciency gain of TD3 over 3: TD3 の E(cid:28)ciency gain 0.88
SAC 12 01000200030004000500 0Episode Return0.00.20.40.60. 81.0Timesteps1e61.5× more efficientAnt-v2SACTD 3 SAC 12 01000200030004000Epi sode Return0.00.20.40.60. 81.0Timesteps1e61.5× more efficientAnt-v2SACTD 3 0.63
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。