論文の概要、ライセンス

# (参考訳) リスク・アバース強化学習の効率化 [全文訳有]

Efficient Risk-Averse Reinforcement Learning ( http://arxiv.org/abs/2205.05138v1 )

ライセンス: CC BY 4.0
Ido Greenberg, Yinlam Chow, Mohammad Ghavamzadeh, Shie Mannor(参考訳) リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。 リスク尺度は、しばしばエージェントの経験から得られる最悪のリターンに焦点を当てる。 その結果、リスク回避rlの標準的な方法は高リターン戦略をしばしば無視する。 特定の条件下では、必然的に局所最適障壁を生じさせ、それをバイパスするためのソフトリスクメカニズムを提案する。 また,リスクサンプリングのための新しいクロスエントロピーモジュールを考案し,(1)ソフトリスクにもかかわらずリスク回避を保ち,(2)サンプル効率を独立的に改善する。 スペンサーとオプティマイザのリスク回避を分離することで、低い条件でエピソードをサンプリングできるが、成功する戦略に関して最適化することができる。 我々はこれらの2つの概念をCeSoR - Cross-entropy Soft-Risk Optimization algorithm - に組み合わせ、任意のリスク-逆ポリシー勾配(PG)法に適用できる。 迷路ナビゲーション,自律運転,資源配分ベンチマークにおけるリスク回避の改善を実証し,標準リスク回避PGが完全に失敗するシナリオを含む。

In risk-averse reinforcement learning (RL), the goal is to optimize some risk measure of the returns. A risk measure often focuses on the worst returns out of the agent's experience. As a result, standard methods for risk-averse RL often ignore high-return strategies. We prove that under certain conditions this inevitably leads to a local-optimum barrier, and propose a soft risk mechanism to bypass it. We also devise a novel Cross Entropy module for risk sampling, which (1) preserves risk aversion despite the soft risk; (2) independently improves sample efficiency. By separating the risk aversion of the sampler and the optimizer, we can sample episodes with poor conditions, yet optimize with respect to successful strategies. We combine these two concepts in CeSoR - Cross-entropy Soft-Risk optimization algorithm - which can be applied on top of any risk-averse policy gradient (PG) method. We demonstrate improved risk aversion in maze navigation, autonomous driving, and resource allocation benchmarks, including in scenarios where standard risk-averse PG completely fails.
公開日: Tue, 10 May 2022 19:40:52 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] G L . s c [ ] G L。 sc [ 0.47
1 v 8 3 1 5 0 1 v 8 3 1 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Efficient Risk-Averse Reinforcement Learning リスク・アバース強化学習の効率化 0.57
Ido Greenberg Technion, Israel イスラエルのイド・グリーンバーグ工科大学 0.61
gido@campus.technion .ac.il gido@campus.technion .ac.il 0.24
Yinlam Chow Google Research Yinlam Chow Google Research 0.42
Mohammad Ghavamzadeh Mohammad Ghavamzadeh 0.42
Google Research Google Research 0.43
Shie Mannor Technion, Israel Nvidia Research イスラエルのNvidia研究会社Shie Mannor Technion 0.82
Abstract In risk-averse reinforcement learning (RL), the goal is to optimize some risk measure of the returns. 概要 リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。 0.63
A risk measure often focuses on the worst returns out of the agent’s experience. リスク尺度は、エージェントの経験から得られる最悪のリターンにしばしば焦点を合わせます。 0.76
As a result, standard methods for risk-averse RL often ignore high-return strategies. その結果、リスク回避rlの標準的な方法は高リターン戦略をしばしば無視する。 0.64
We prove that under certain conditions this inevitably leads to a local-optimum barrier, and propose a soft risk mechanism to bypass it. 特定の条件下では、必然的に局所最適障壁を生じさせ、それをバイパスするためのソフトリスクメカニズムを提案する。 0.59
We also devise a novel Cross Entropy module for risk sampling, which (1) preserves risk aversion despite the soft risk; (2) independently improves sample efficiency. また,リスクサンプリングのための新しいクロスエントロピーモジュールを考案し,(1)ソフトリスクにもかかわらずリスク回避を保ち,(2)サンプル効率を独立的に改善する。 0.76
By separating the risk aversion of the sampler and the optimizer, we can sample episodes with poor conditions, yet optimize with respect to successful strategies. スペンサーとオプティマイザのリスク回避を分離することで、低い条件でエピソードをサンプリングできるが、成功する戦略に関して最適化することができる。 0.58
We combine these two concepts in CeSoR – Cross-entropy Soft-Risk optimization algorithm – which can be applied on top of any risk-averse policy gradient (PG) method. 我々はこれらの2つの概念をCeSoR – クロスエントロピーなソフトリスク最適化アルゴリズム – に組み合わせ、リスク-逆ポリシー勾配(PG)法を適用できる。 0.82
We demonstrate improved risk aversion in maze navigation, autonomous driving, and resource allocation benchmarks, including in scenarios where standard risk-averse PG completely fails. 迷路ナビゲーション,自律運転,資源配分ベンチマークにおけるリスク回避の改善を実証し,標準リスク回避PGが完全に失敗するシナリオを含む。 0.76
Our code and results are available on Github. コードと結果はGithubで公開されている。 0.68
1 Introduction Risk-averse reinforcement learning (RL) is important for high-stake applications, such as driving, robotic surgery, and finance. 1 はじめに リスク・アバース強化学習(RL)は、運転、ロボット手術、金融などの高度な応用において重要である。 0.56
In contrast to the standard risk-neutral RL, it optimizes a risk measure of the return random variable instead of its expectation. 標準のリスク中立rlとは対照的に、期待値の代わりに戻り確率変数のリスク測度を最適化する。 0.77
A popular risk measure is the Conditional Value at Risk (CVaR), defined as CVaRα(R) = E [R | R ≤ qα(R)], where qα(R) = min{x| FR(x) ≥ α} is the α-quantile of the random variable R and FR is its CDF. 一般的なリスク測度は、cvarα(r) = e[r | r ≤ qα(r)] と定義される条件値 (cvar) であり、ここで qα(r) = min{x| fr(x) ≥ α} は確率変数 r の α-四元数であり、fr はその cdf である。
訳抜け防止モード: 一般的なリスク尺度は、条件付きリスク(CVaR)である。 CVaRα(R ) = E [ R | R ≤ qα(R ) ] ここで qα(R) = min{x| FR(x) ≥ α } は確率変数 R の α-量子化であり、FR はその CDF である。
0.90
Intuitively, CVaR measures the worst-cases of the return distribution below a specific quantile α, also termed the risk level. 直感的には、CVaR は特定の量子 α 以下の戻り分布の最悪のケースを測定し、リスクレベルとも呼ばれる。 0.61
CVaR optimization is widely researched in the RL community, e g , using adjusted policy gradient approaches (CVaR-PG) [Tamar et al , 2015b, Hiraoka et al , 2019]. CVaR最適化は,調整政策勾配アプローチ (CVaR-PG) [Tamar et al , 2015b,hiraoka et al , 2019] を用いて,RLコミュニティにおいて広く研究されている。 0.86
In additon, CVaR is a coherent risk measure, and its optimization is equivalent to a robust RL problem [Chow et al , 2015]. アディトンではCVaRはコヒーレントリスク尺度であり、その最適化はロバストなRL問題と等価である[Chow et al , 2015]。 0.67
Since risk-averse RL aims to avoid the hazardous parts of the environment (e g , dangerous areas in navigation), CVaR-PG algorithms typically sample a batch of N trajectories (episodes), and then optimize w.r.t. the mean of the αN trajectories with worst returns [Tamar et al , 2015b, Rajeswaran et al , 2017]. リスク逆RLは、環境の有害な部分(例えば、航海の危険領域)を避けることを目的としているため、CVaR-PGアルゴリズムは典型的にはN軌道のバッチをサンプリングし(エピソード)、最悪のリターンを持つαN軌道の平均をw.r.t.に最適化する[Tamar et al , 2015b, Rajeswaran et al , 2017]。 0.73
This approach suffers from two major drawbacks: このアプローチには2つの大きな欠点があります。 0.56
(i) 1 − α of the batch is wasted and excluded from the optimization (where often 0.01 ≤ α ≤ 0.05), leading to sample inefficiency and thus inaccurate gradient estimation; i) バッチの1-αは、最適化(しばしば0.01 ≤ α ≤ 0.05)から無駄にされ、サンプルの非効率性、したがって不正確な勾配推定をもたらす。 0.75
(ii) focusing on the worst episodes inherently overlooks good agent strategies corresponding to high returns – a phenomenon we refer to as the blindness to success. (II)最悪のエピソードに焦点を合わせると、本質的には高いリターンに対応する優れたエージェント戦略を見落とします。 0.52
As an example for the blindness to success, consider the Guarded Maze benchmark (Section 5.1 and Figure 1d). 成功への盲点の例として、Garded Mazeベンチマーク(Section 5.1 と Figure 1d)を考える。 0.78
In this maze, the shortest path is sometimes watched by a guard who imposes bribery fees on passengers, leading to a large loss with low probability, whereas the longer path is unguarded. この迷路では、最短の道は乗客に収賄料を課す警備員によって監視され、低い確率で大きな損失をもたらすが、長い道は守られていない。 0.70
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
(a) Guarded Maze (b) Driving Game (a)守った迷路 (b)ドライブゲーム 0.73
(c) Servers Allocation (c)サーバの割り当て 0.89
(d) CeSoR learns to avoid the risk (red) and take the long path to the target (green), whereas GCVaR fails due to blindness to success. (d)CeSoRはリスク(赤)を回避し、目標(緑)への長い進路を取ることを学ぶが、GCVaRは成功の盲目のために失敗する。 0.79
(e) CeSoR maintains a safe margin from the leader, while PG has an accident and GCVaR maintains a too conservative distance. (e)CeSoRはリーダーから安全なマージンを維持し、PGは事故を持ち、GCVaRは保守的すぎる距離を維持している。 0.74
(f) CeSoR handles the exceptional peak in user-requests without paying for as many servers as GCVaR, while PG fails to handle the peak. (f)CeSoRはGCVaRほど多くのサーバを支払わずに、ユーザ要求の例外的なピークを処理しますが、PGはピークを処理できません。 0.68
Figure 1: Over 3 benchmarks, test results of 3 agents: risk-neutral PG, standard CVaR-PG (GCVaR, Tamar et al [2015b]), and our CeSoR. 図1:3つのベンチマーク、リスクニュートラルPG、標準CVaR-PG(GCVaR, Tamar et al [2015b])、私たちのCeSoRの3つのエージェントのテスト結果。 0.75
Top: the lower quantiles of the returns distributions. top: リターン分布の下方四分位数。 0.61
Bottom: sample episodes. ボトム: サンプルのエピソード。 0.75
The shortest path maximizes the average return, whereas the longer one is CVaR-optimal. 最も短い経路は平均回帰を最大にし、長い経路はCVaR最適である。 0.78
However, in a batch of N random episodes, the worst αN returns usually correspond to either encountering a guard in the short path, or not reaching the goal at all; hence, the desired long path is never even observed by the CVaR-PG optimizer, and cannot be learned. しかし、Nのランダムなエピソードのバッチでは、最悪のαNリターンは通常、短いパスでガードに遭遇したか、ゴールに到達しなかったかのいずれかに対応しているため、CVaR-PGオプティマイザによって望まれる長いパスは観測されず、学習できない。 0.64
Our key insight is that the variation in returns comes from both environment conditions (epistemic uncertainty) and agent actions (aleatoric uncertainty). 我々の重要な洞察は、リターンの変化は環境条件(エピステミック不確実性)とエージェントアクション(アラート不確実性)の両方から生じているということである。 0.61
We wish to focus on the low quantiles w.r.t. the conditions (e g , a highly-charging guard in the short path of the maze), yet to be exposed to the high quantiles w.r.t. the strategies (e g , taking the safe path in the maze). 我々は、条件 w.r.t. の低量子化(例えば、迷路の短い経路の高電荷ガード)に焦点を合わせたいが、戦略 w.r.t. の高量子化(例えば、迷路の安全な経路を取る)には触れられない。 0.71
To that end, we devise two mechanisms: first, we use a soft risk-level scheduling, which begins the training with risk neutrality α(cid:48) = 1, and gradually shifts the risk aversion to α(cid:48) = α. まず、リスク中立性α(cid:48) = 1でトレーニングを開始し、リスク回避を徐々にα(cid:48) = αにシフトします。
訳抜け防止モード: そのために、我々は2つのメカニズムを考案した。 リスク中立性α(cid:48 ) = 1 でトレーニングを開始する。 リスク回避をα(cid:48 ) = α に徐々にシフトさせる。
0.68
Second, we present a novel dynamic-target version of the Cross Entropy method (CE or CEM) [de Boer et al , 2005], aiming to sample the worst parts of the environment. 第2に,Cross Entropy法 (CE or CEM) [de Boer et al , 2005] の動的ターゲットバージョンについて, 環境の最悪の部分をサンプリングすることを目的とした。 0.77
That is, the CEM samples trajectories with challenging or risky conditions, and the soft risk feeds a larger part of them (α(cid:48) ≥ α) to the CVaR-PG optimizer. すなわち、CEMは困難または危険条件で軌道をサンプリングし、ソフトリスクはCVaR-PGオプティマイザにその大部分が(α(cid:48) ≥ α)供給される。 0.72
Together, these constitute the Cross-entropy method for Soft-Risk optimization (CeSoR). これらを合わせて、ソフトリスク最適化(CeSoR)のクロスエントロピー法を構成する。 0.52
CeSoR can be applied on top of any CVaR-PG method to learn any differentiable model (e g , a neural network). CeSoRはどんなCVaR-PG法にも適用でき、任意の微分可能なモデル(例えばニューラルネットワーク)を学ぶことができる。 0.75
In order to apply the CEM to CVaR-PG, we assume to have certain control over the environment conditions. CEMをCVaR-PGに適用するには,環境条件を一定に制御する必要がある。 0.76
For example, in self-driving we may choose the roads for collecting training data, or in any simulated domain we may control the environment parameters. 例えば、自動運転ではトレーニングデータを収集する道路を選択したり、シミュレートされたドメインで環境パラメータを制御したりできます。 0.81
Note that (i) only the CE sampler (not the agent) is aware of the conditions; 注意 i) CEサンプリング者(エージェントではない)のみが条件を認識している。 0.56
(ii) their true underlying effect is unknown to the sampler and may vary with the agent throughout the training, hence the CEM needs to learn it adaptively. (II) 真の基礎的効果はサンプリング者にとって未知であり, トレーニングを通してエージェントによって異なる可能性があるため, CEMは適応的に学習する必要がある。 0.66
Contribution: Our contribution is four-fold. コントリビューション: 私たちのコントリビューションは4倍です。 0.35
First, following the risk-sensitive MDP problem (Section 2) we introduce the CeSoR algorithm (Section 3), which modifies any CVaR-PG method with: まず、リスクに敏感なMDP問題(Section 2)に続いて、CVaR-PG法を次のように変更したCeSoRアルゴリズム(Section 3)を導入する。
訳抜け防止モード: まず、リスクに敏感なMDP問題(第2節)に続いて、CeSoRアルゴリズムを導入する(第3節)。 CVaR - PG メソッドを :
0.81
(i) a soft risk mechanism; (i)ソフトリスク機構 0.53
(ii) a novel dynamic-CE method that samples the riskier realizations of the environment for training. (ii)訓練環境のよりリスクの高い実現をサンプリングする新しい動的ce法。 0.71
Second, we theoretically analyze the phenomenon of blindness to success in standard CVaR-PG and show that it leads to a local-optimum barrier in certain environments (Section 4.1), which further motivates our soft risk mechanism. 第2に,標準CVaR-PGにおける盲目の現象を理論的に解析し,それが特定の環境における局所最適障壁につながることを示す(第4章1)。 0.69
Third, we theoretically analyze the potential increase in sample-efficiency when sampling directly from the tail of the returns distributions (Section 4.2), which motivates our CE mechanism (which aims to sample from this tail). 第3に,リターン分布の尾部から直接サンプリングする場合の試料効率の増加について理論的に解析する(Section 4.2)。
訳抜け防止モード: 第三に、リターン分布の尾部から直接サンプリングする場合の試料の潜在的増加について理論的に分析する(セクション4.2)。 これはCEメカニズム(この尾からサンプルすることを目的としています)を動機付けます。
0.59
Fourth, we demonstrate the effectiveness of CeSoR in 3 risk-sensitive domains (Section 5), where it learns faster and achieves higher returns (in terms of both CVaR and mean) than the baseline CVaR-PG. 第4に,CeSoRの有効性を3つのリスク感受性ドメイン(第5部)で実証し,CVaR-PGよりも高速に学習し,高いリターン(CVaRと平均の両方)を達成する。 0.80
2 2 0.42
英語(論文から抽出)日本語訳スコア
1.1 Related Work Optimizing risk in RL is crucial to enforce safety in decision-making [García and Fernández, 2015, Paduraru et al , 2021]. 1.1 関連作業 RLのリスクの最適化は、意思決定における安全性を強制するために不可欠である[García and Fernández, 2015 Paduraru et al , 2021]。
訳抜け防止モード: 1.1 関連作業 RLにおけるリスクの最適化 決定において安全を強制することが重要です ガルシアとフェルナンデス, 2015 Paduraru et al, 2021 ]
0.77
It has been long studied through various risk criteria, e g , mean-variance [Sato et al , 2001, Prashanth and Ghavamzadeh, 2013, 2016, Xie et al , 2018], entropic risk measure [Borkar and Meyn, 2002, Borkar and Jain, 2014, Fei et al , 2021] and distortion risk measures [Vijayan and Prashanth, 2021]. Sato et al , 2001, Prashanth and Ghavamzadeh, 2013, 2016, Xie et al , 2018], entropic risk measure [Borkar and Meyn, 2002, Borkar and Jain, 2014, Fei et al , 2021], distortion risk measures [Vijayan and Prashanth, 2021]など、様々なリスク基準で長い間研究されてきた。
訳抜け防止モード: 様々なリスク基準(例えば、様々なリスク基準)を通じて長い間研究されてきた。 平均-分散 [sato et al, 2001, prashanth] そして ghavamzadeh, 2013 2016 xie et al, 2018] エントロピーリスク尺度 [borkar and meyn, 2002, borkar] そしてjain, 2014 fei et al, 2021] そして、歪みリスク対策(vijayan and prashanth, 2021)。
0.72
Tamar et al [2015a] derived a PG method for general coherent risk measures, given their risk-envelope representation. Tamar et al [2015a] はリスク・エンベロープの表現から一般コヒーレントリスク尺度のPG法を導出した。 0.66
The CVaR risk measure specifically was studied using value iteration [Chow et al , 2015] and distributional RL [Dabney et al , 2018, Tang et al , 2019, Bodnar et al , 2020]. 具体的なcvarリスク尺度は、value iteration [chow et al , 2015] と distributional rl [dabney et al , 2018, tang et al , 2019, bodnar et al , 2020]を用いて検討された。 0.72
CVaR optimization was also shown equivalent to mean optimization under robustness [Chow et al , 2015], motivating robustRL methods [Pinto et al , 2017, Godbout et al , 2021]. また, CVaR最適化はロバスト性に基づく平均最適化(Chow et al , 2015)と等価であり, ロバストRL法を動機付ける[Pinto et al , 2017 Godbout et al , 2021]。 0.76
Yet, PG remains the most popular approach for CVaR optimization in RL [Tamar et al , 2015b, Rajeswaran et al , 2017, Hiraoka et al , 2019, Huang et al , 2021a], and can be flexibly applied to a variety of use-cases, e g , mixed mean-CVaR criteria [Chow and Ghavamzadeh, 2014] and multi-agent problems [Qiu et al , 2021]. しかし、PGはRL (Tamar et al , 2015b, Rajeswaran et al , 2017 Hiraoka et al , 2019, Huang et al , 2021a] においてCVaR最適化の最も一般的なアプローチであり、様々なユースケース、例えば、混合平均CVaR基準 [Chow and Ghavamzadeh, 2014]、マルチエージェント問題 [Qiu et al , 2021] に柔軟に適用できる。 0.76
Optimizing CVaR for risk levels α (cid:28) 1 poses a significant sample efficiency challenge, as only a small portion of the agent’s experience is used to optimize its policy. CVaRをリスクレベルα(cid:28)1に最適化することは、エージェントの経験のごく一部しかそのポリシーを最適化しないため、重要なサンプル効率の課題となる。 0.75
Keramati et al [2020] used an exploration-based approach to address the sample efficiency. Keramati et al [2020] はサンプル効率に対処するために探索に基づくアプローチを採用した。 0.73
Pessimistic sampling for improved sample efficiency was suggested heuristically by Tamar et al [2015b] using a dedicated value function, but no systematic method was suggested to direct the pessimism level. サンプル効率向上のための悲観的サンプリングを,専用値関数を用いてTamar et al [2015b] によりヒューリスティックに提案したが,悲観的レベルを指示する体系的手法は提案されなかった。 0.67
In this work, we use the CEM to control the sampled episodes around the desired risk level α, and demonstrate CVaR optimization for as extreme levels as α = 1%. 本研究では, CEMを用いて, 所望のリスクレベルα付近のサンプルエピソードを制御し, CVaRをα=1%の極端レベルまで最適化した。 0.80
Note that unlike existing CE-optimizers in RL [Mannor et al , 2003, Huang et al , 2021b], we use the CEM for sampling, to support a gradient-based optimizer. RL (Mannor et al , 2003, Huang et al , 2021b) の既存のCE-optimizer とは異なり、サンプリングには CEM を使用し、勾配に基づく最適化をサポートする。 0.76
2 Problem Formulation total return is denoted by R(τ ) =(cid:80)T where P πθ (τ ) = P0(s0)(cid:81)T−1 2 問題定式化 r(τ ) =(cid:80)t ここで p πθ (τ ) = p0(s0)(cid:81)t−1 である。 0.81
Consider a Markov Decision Process (MDP) (S, A, P, γ, P0), corresponding to states, actions, statetransition and reward distribution, discount factor, and initial state distribution, respectively. マルコフ決定過程(mdp) (s, a, p, γ, p0) を、それぞれ状態、行動、状態遷移、報酬分布、割引係数、初期状態分布に対応するものを考える。 0.73
For any policy parameter θ ∈ Rn, we denote by πθ the parameterized policy that maps a state to a probability distribution over actions. 任意のポリシーパラメータ θ ∈ Rn に対して、πθ は状態をアクション上の確率分布にマッピングするパラメータ化されたポリシーを表す。 0.80
Given a state-action-reward trajectory τ = {(st, at, rt)}T t=0, the trajectory 状態-作用-逆軌道 τ = {(st, at, rt)}T t=0 が与えられたとき、軌道 0.76
t=0 γtrt. The expected return of a policy πθ is defined as J(πθ) = Eτ∼P πθ [R(τ )] , t=0 γtrt。 方針 πθ の期待帰結は j(πθ) = eτ\p πθ [r(τ )] と定義される。 0.55
(1) t=0 P (st+1, rt|st, at)πθ(at|st) is the probability distribution of τ induced by πθ. 1) t=0 p (st+1, rt|st, at) πθ(at|st) は πθ によって誘導される τ の確率分布である。 0.73
Under the risk-neutral objective, the PG method uses the gradient ∇θJ(πθ) to learn θ, aiming to increase the probability of actions that lead to higher returns. リスクニュートラルな目的の下では、PG法は θ を学習するために勾配 πθJ(πθ) を用いており、より高いリターンをもたらす作用の確率を高めることを目的としている。
訳抜け防止モード: リスク-中立目標の下では、PG法は勾配 πθJ(πθ ) を用いる。 θ を学ぶには より高いリターンにつながる行動の確率を高めることを目指しています
0.72
In contrast, CVaR-PG methods aim to optimize the risk-averse CVaRα objective (w.r.t. a given risk level α): 一方、CVaR-PG法は、CVaRα目標(例えば、与えられたリスクレベルα)を最適化することを目的としている。
訳抜け防止モード: 対照的にCVaR-PG法は目的とする リスクを最適化する - averse CVaRα 目標(与えられたリスクレベル α )
0.79
(2) where qα(R|πθ) is the α-quantile of the return random variable of policy πθ. 2) ここで qα(R|πθ) はポリシー πθ の帰納確率変数の α-量子である。 0.76
Thus, CVaR-PG algorithms aim to improve the actions specifically for episodes whose returns are lower than qα(R|πθ). したがって、CVaR-PGアルゴリズムは、リターンがqα(R|πθ)よりも低いエピソードのアクションを改善することを目的としている。 0.57
Specifically, given a batch of N trajectories {τi}N i=1 whose empirical return quantile is ˆqα = ˆqα({R(τi)}N 具体的には、N 軌道のバッチ {τi}N i=1 が与えられたとき、その経験的帰納量子は >qα = >qα({R(τi)}N である。 0.60
i=1), the CVaR gradient estimation is given by [Tamar et al , 2015b]: i=1), CVaR勾配推定は [Tamar et al , 2015b] で与えられる。 0.84
Jα(πθ) = Eτ∼P πθ [R(τ )| R(τ ) ≤ qα(R|πθ)] , Jα(πθ) = Eτ\P πθ [R(τ )| R(τ ) ≤ qα(R|πθ)] , 0.46
∇θ ˆJα({τi}N θjα({τi}n) である。 0.49
wi · 111R(τi)≤ˆqα (R(τi) − ˆqα) wi · 111R(τi)≤-qα(R(τi) − yqα) 0.42
i=1 i=1; πθ) = i=1 である。 i=1; πθ) = 0.38
(3) where wi = P πθ (τi)/f (τi | πθ) is the importance sampling (IS) correction factor for trajectory τi, if it is drawn from a distribution f (cid:54)= P πθ. (3) ここで wi = P πθ (τi)/f (τi | πθ) は、分布 f (cid:54) = P πθ から引き出される場合、軌跡 τi に対する重要サンプリング (IS) 補正因子である。 0.90
Context-MDP: Given a standard MDP, we can often extend its formulation into a Context-MDP (C-MDP), where the context is a set of variables that capture (part or all of) the randomness of the original MDP. Context-MDP: 標準的なMDPが与えられたら、その定式化をContext-MDP(C-MDP)に拡張することができる。
訳抜け防止モード: コンテキスト - MDP 標準のMDPが与えられた。 私たちはしばしばその定式化をContext - MDP (C - MDP ) に拡張できます。 コンテキストは変数の集合で 元のMDPのランダム性をキャプチャする(一部または全部)。
0.76
We define the extension as (S, A,C, PC, γ, P0, Dφ0 ), where C ∈ C is sampled from the context space C according to the distribution Dφ0 parameterized by φ0, and PC(·) = P (·|C) is the transition and reward distribution conditioned on C. In a C-MDP, a context-trajectory pair is sampled from the distribution P πθ C (τ ), where φ0 t=0 PC(st+1, rt|st, at)πθ(at|st). 拡張を (S, A, C, PC, γ, P0, Dφ0 ) と定義する: C ∈ C は φ0 でパラメータ化された分布 Dφ0 に従ってコンテキスト空間 C からサンプリングされ、PC(·) = P (·|C) は C 上で条件付けられた遷移と報酬分布である。
訳抜け防止モード: 拡張を (S, A, C) と定義する。 PC, γ, P0, Dφ0 ) C ∈ C は φ0 でパラメータ化された分布 Dφ0 に従って文脈空間 C からサンプリングされる。 PC ( · ) = P ( · |C ) は C 上で条件付けられた遷移と報酬分布である。 文脈-軌道対は分布 P πθ C ( τ ) からサンプリングされる ここで φ0 t=0 PC(st+1 , rt|st , at)πθ(at|st ) である。
0.85
The mean and CVaRα objectives J(πθ), P πθ Jα(πθ) in Equations (1) and (2) are naturally generalized to C-MDP using the distribution P πθ (C, τ ). 平均と CVaRα の対象は方程式 (1) と (2) における P πθ Jα(πθ) であり、分布 P πθ (C, τ ) を用いて C-MDP に自然に一般化される。 0.83
φ0 C (τ ) = P0(s0)(cid:81)T−1 φ0 C (τ ) = P0(s0)(cid:81)T−1 0.40
(C, τ ) = Dφ0 (C)P πθ (C,τ) = Dφ0(C)Pπθ 0.47
t=0 ∇θ log πθ(ai,t; si,t), t=0 θ log πθ(ai,t; si,t) である。 0.59
N(cid:88) 1 αN N(第88回) 1αN 0.52
T(cid:88) 3 T(第88回) 3 0.50
英語(論文から抽出)日本語訳スコア
Once we extend an MDP into a C-MDP, we can learn how to modify the context-distribution parameter φ to sample high-risk contexts and trajectories, and thus, to focus the training on high-risk parts of the environment (addressing the sample efficiency issue). mdpをc-mdpに拡張すると、コンテキスト分散パラメータ φ を修正して、ハイリスクなコンテキストとトラジェクタをサンプリングし、トレーニングを環境のハイリスクな部分に集中することができる(サンプル効率の問題に対処する)。 0.60
For this, we assume that certain aspects of the training environment (represented by C) can be controlled. このため、トレーニング環境(Cで表現される)の特定の側面を制御できると仮定する。
訳抜け防止モード: そのために私たちは トレーニング環境(Cで表される)の特定の側面を制御することができる。
0.83
This assumption indeed holds in many practical applications. この仮定は多くの実用的応用に当てはまる。 0.79
For example, consider a data collection procedure for a self-driving agent training, which by default samples all driving hours uniformly: C ∼ U ([0, 24)). As the hour may affect the traffic and driving patterns, a risk-averse driver would prefer to sample more experience in high-risk hours. To that end, we could re-parameterize the uniform distribution as, say, Beta(φ) with φ0 = (1, 1) (note that Beta(1, 1) is the uniform distribution), learn the high-risk hours, and modify φ to over-sample them. As another example, in the Driving Game in Section 5.2, where the agent has to follow a leader car, we use C to represent the leader’s behaviors (e g , turns, emergency brakes), and φ to control the probability of these behaviors. Cross Entropy Method (CEM): The CEM [de Boer et al , 2005] is a general approach to rare-event sampling and optimization, which we use to sample high-risk contexts and trajectories. For example, consider a data collection procedure for a self-driving agent training, which by default samples all driving hours uniformly: C ∼ U ([0, 24)). As the hour may affect the traffic and driving patterns, a risk-averse driver would prefer to sample more experience in high-risk hours. To that end, we could re-parameterize the uniform distribution as, say, Beta(φ) with φ0 = (1, 1) (note that Beta(1, 1) is the uniform distribution), learn the high-risk hours, and modify φ to over-sample them. As another example, in the Driving Game in Section 5.2, where the agent has to follow a leader car, we use C to represent the leader’s behaviors (e g , turns, emergency brakes), and φ to control the probability of these behaviors. Cross Entropy Method (CEM): The CEM [de Boer et al , 2005] is a general approach to rare-event sampling and optimization, which we use to sample high-risk contexts and trajectories.
訳抜け防止モード: 例えば、セルフ駆動エージェントトレーニングのためのデータ収集手順について考えてみましょう。 デフォルトでは、すべての運転時間を均一にサンプリングする。 時間とともに、交通や運転パターンに影響を与えます。 リスク - 逆のドライバーは、高いリスク時間でより多くの経験をサンプリングする傾向にあります。 その目的のために、均一分布をパラメータ化できる。 例えば、beta(φ ) φ0 = ( 1, 1 ) (beta(1, 1 )は均一な分布であり、高いリスク時間を学ぶ。 φ を over に変更します。 第5条2項のドライビングゲームでは、エージェントがリーダーカーをフォローしなければならない。 私たちはリーダーの行動(例えば、)を表現するためにCを使用します。 turn, emergency brakes ) と φ はこれらの行動の確率を制御する。 Cross Entropy Method (CEM ) : The CEM [de Boer et al, 2005 ] は希少なイベントサンプリングと最適化に対する一般的なアプローチである。 高いリスクコンテキストとトラジェクトリのサンプリングに使用しています。
0.78
Here we discuss the CEM as adjusted to the setting and notations of our problem (see Algorithm 2 in the appendix for a more general presentation). ここでは、問題の設定と表記に適応したCEMについて論じる(より一般的なプレゼンテーションの付録のアルゴリズム2を参照)。 0.71
Specifically, we wish to sample contexts whose corresponding trajectory-returns are likely to be below the α-quantile qα(R|πθ). 具体的には、対応する軌道-回帰が α-量子 qα(R|πθ) 以下であるような文脈をサンプリングしたい。 0.55
That is, we wish to sample context-trajectory pairs that follow the distribution P πθ (C, τ ). すなわち、分布 p πθ (c, τ ) に従う文脈-軌跡対をサンプリングしたい。 0.67
To that end, the CEM searches for a value of φ for which the distribution P πθ φ is similar to the original φ0,α. この目的のために、CEMは、分布 P πθ φ が元の φ0,α と似ている φ の値を求める。 0.79
More precisely, the CEM looks for φ∗ that minimizes the KL-divergence distribution’s tail P πθ (i.e., cross-entropy) between the two: φ∗ ∈ argminφ DKL E (C,τ )∼P E (C,τ )∼P より正確には、CEM は KL-発散分布のテール P πθ (すなわち、クロスエントロピー) を最小化するφ∗ を求める: φ∗ ∈ argminφ DKL E (C,τ ) =P E (C,τ ) =P 0.87
(cid:2)α−1111R(τ )≤qα(R|πθ) log Dφ(C)(cid:3) (cid:2)α−1wi 111R(τ )≤qα(R|πθ) log Dφ(C)(cid:3), (cid:2)α−1111R(τ )≤qα(R|πθ) log Dφ(C)(cid:3) (cid:2)α−1wi 111R(τ )≤qα(R|πθ) log Dφ(C)(cid:3) 0.36
φ (C, τ )(cid:1) φ (C, τ )(cid:1) 0.49
φ0,α(C, τ )|| P πθ φ0,α(C,τ)|| P πθ 0.48
α111R(τ )≤qα(R|πθ)P πθ φ0 α111R(τ )≤qα(R|πθ)P πθ φ0 0.67
φ0,α(C, τ ) = 1 φ0,α(C, τ ) = 1 0.46
(cid:0)P πθ (cid:0)P πθ 0.44
= argmaxφ = argmaxφ =argmaxφ =argmaxφ 0.40
(4) πθ φ0 πθ φ (4) πθ φ0 πθ φ 0.41
(C, τ )/P πθ where wi = P πθ φ0 φ (cid:54)= P πθ trajectory pairs are sampled from a distribution P πθ . (C,τ)/Pπθ ここでwi = p πθ φ0 φ (cid:54)= p πθ 軌道対は分布 p πθ からサンプリングされる。 0.63
Given two batches of context-trajectory pairs {(Ci, τi)}No i=1 and {(Ci, τi)}No+Ns i=No+1 collected from C-MDPs parameterized by φ0 and φ∗, respectively, and an estimated return quantile ˆqα = ˆqα({R(τi)}No φ0 と φ∗ でパラメータ化された C-MDPs からそれぞれ収集された文脈-軌道対 {(Ci, τi)} No i=1 と {(Ci, τi)} No+Ns i=No+1 の 2 つのバッチと、推定帰納量子量 φqα({R(τi)}No が与えられた。 0.67
φ (C, τ ) = Dφ0 (C)/Dφ(C) are IS weights, needed whenever the context- φ (C, τ ) = Dφ0 (C)/Dφ(C) は IS 重みであり、コンテキストが常に必要である。 0.72
i=1), we may calculate an estimate of the CVaR gradient as i=1) CVaR勾配の推定値を計算することができる。 0.81
φ0 ∇θ ˆJα(πθ) = φ0 πθ (複数形 πθs) 0.51
1 wi · 111R(τi)≤ˆqα (R(τi) − ˆqα) 1 wi · 111R(τi)≤-qα(R(τi) − yqα) 0.42
∇θ log πθ(ai,t; si,t), θ log πθ(ai,t; si,t) である。 0.88
(5) where wi = 1 for 1 ≤ i ≤ No and wi = Dφ0(Ci)/Dφ∗ (Ci) for No + 1 ≤ i ≤ No + Ns. (5) ここで wi = 1 for 1 ≤ i ≤ No と wi = Dφ0(Ci)/Dφ∗(Ci) for No + 1 ≤ i ≤ No + Ns である。 0.68
3 The Cross-entropy Soft-Risk Algorithm 3 クロスエントロピーソフトリスクアルゴリズム 0.33
Below we present our Cross-entropy Soft-Risk algorithm (CeSoR) that uses a PG approach to maximize Jα(πθ) in (2). 以下に、PGアプローチを用いて(2)でJα(πθ)を最大化するクロスエントロピーソフトリスクアルゴリズム(CeSoR)を示す。 0.74
Algorithm 1 depicts the details of CeSoR, which adds two components on top of a standard CVaR-PG method: CE sampling and soft-risk scheduling. アルゴリズム1は、標準的なCVaR-PG法の上に2つのコンポーネント、CEサンプリングとソフトリスクスケジューリングを追加するCeSoRの詳細を描いている。 0.59
CE sampling: As described in Section 2, the CEM aims to align the agent’s experience with the α worst-case returns. CEサンプリング: 第2節で述べたように、CEMはエージェントの経験をα最悪のケースリターンと整合させることを目的としています。 0.57
Every iteration, it samples two batches of contexts: {Cφ,i}Ns i=1 from the current context distribution Dφ and {Co,i}No i=1 from the original distribution Dφ0; observes the returns of the trajectories generated with these contexts; and updates the context parameter φ (Line 12). 反復毎に2つのコンテキストのバッチをサンプリングする: {cφ,i}ns i=1 from the current context distribution dφ0 and {co,i}no i=1 from the original distribution dφ0; the return of the trajectories generated with these contexts; and updates the context parameter φ (line 12)。 0.93
The update uses importance sampling (IS) weights wo,i = 1 (for the original-context samples) and wφ,i = Dφ0(Cφ,i)/Dφ(Cφ,i) (for the ones drawn from Dφ). この更新は、重要サンプリング(IS)重み wo,i = 1(原文サンプル)とwφ,i = Dφ0(Cφ,i)/Dφ(Cφ,i)(Dφから引き出されたもの)を使用する。 0.86
In addition, instead of taking the α-quantile ˆqα (estimated w.r.t. the samples {Co,i}), q = max(ˆqα, ˆqβ) is used (Line 11), where β > α and ˆqβ is taken w.r.t. all the samples {C·,i}. さらに、サンプル {co,i} を推定する α-量子量 sqα を取る代わりに、q = max(qα, sqβ) が (11 行目)、ここでは β > α と sqβ がすべてのサンプル {c·,i} を取る。 0.75
Intuitively, this guarantees that we use a minimum of βN samples in the update even if ˆqα is very low, hence φ can be updated more smoothly. 直感的には、このことは、もし φ が非常に低いとしても、更新で最小限の βN サンプルを使用することを保証する。 0.73
Note that Line 12 often reduces to a simple closed-form update; for a Gaussian, for example, it reduces to the weighted mean and variance of {C·,i | R(τC·,i) ≤ q} with the IS weights w. 例えばガウス系では、is重み w で {c·,i | r(τc·,i) ≤ q} の重み付き平均と分散に還元される。
訳抜け防止モード: 12行目は、しばしば単純なクローズド・フォーム・アップデートに還元される。 例えば ガウス系では 重み付け平均まで減少します and variance of { c·,i | r(τc·,i ) ≤ q } with the is weights w。
0.77
4 No+Ns(cid:88) 4 No+Ns(cid:88) 0.38
α(No + Ns) α(No + Ns) 0.42
i=1 T(cid:88) i=1 である。 T(第88回) 0.45
t=0 t=0 0.29
英語(論文から抽出)日本語訳スコア
5 6 7 8 9 10 5 6 7 8 9 10 0.42
11 12 13 14 15 11 12 13 14 15 0.42
Algorithm 1: CeSoR アルゴリズム1:CeSoR 0.68
{Cφ,i}Ns cφ,i}n である 0.70
i=1 ∼ Dφ i=1 は dφ である。 0.41
Dφ(Cφ,i) , ∀i ∈ {1, . . . , Ns} Dφ(Cφ,i) , .i ∈ {1, . , Ns} 0.44
φ ← argmaxφ(cid:48)(cid:80) φ ~ argmaxφ(cid:48)(cid:80) 0.36
1 Input: risk level α; context distribution Dφ; original context parameter φ0; training steps M; trajectories sampled per batch N, where ν fraction of them is from the original Dφ0; smoothed CE quantile β; risk-level scheduling factor ρ φ ← φ0, 2 Initialize: policy πθ, 3 No ← (cid:98)νN(cid:99), Ns ← (cid:100)(1 − ν)N(cid:101) 4 for m in 1 : M do 1 入力: リスクレベル α; コンテキスト分布 dφ; オリジナルコンテキストパラメータ φ0; トレーニングステップ m; バッチ n 毎にサンプリングされた軌道 ν 分数を元の dφ0; 平滑化 ce quantile β; リスクレベルスケジューリング係数 ρ φ , φ0, 2 初期化: ポリシー πθ, 3 no , (cid:98)νn(cid:99), ns (cid:100)(1 − ν)n(cid:101) 4 for m in 1 : m do 0.85
// Sample contexts i=1 ∼ Dφ0, Sample {Co,i}No C ← (Co,1, . . . , Co,No, Cφ,1, . . . , Cφ,Ns) wo,i ← 1, ∀i ∈ {1, . . . , No} wφ,i ← Dφ0 (Cφ,i) w ← (wo,1, . . . , wo,No, wφ,1, . . . , wφ,Ns) // Sample trajectories {τCo,i},{τCφ,i} ← run_episodes(πθ, C) // Update CE sampler q ← max(ˆqα({R(τCo,i)}), ˆqβ({R(τC·,i)})) 例: i=1 , dφ0, sample {co,i}no c , (co,1, . . . , co,no, cφ,1, . . . . , c φ,ns) wo,i , 1, , i ∈ {1, . . . , no} w φ,i , d φ0 (c φ,i) w , (wo,1, . . . . , wo,no, wφ,1, . , wφ,ns) // sample trajectories {τco,i},{τcφ,i} , run_episodes(π, c) // update ce sample r q s max(({rq(i), τ(i), . . . . . . . . . . . . . . . . .
訳抜け防止モード: サンプルコンテキスト i=1 > Dφ0, Sample { Co, i}No C > (Co,1,..., Co, No, Cφ, 1, . Ns ) wo, i {\displaystyle i} は 1 であり、i ∈ { 1} である。 . , No } wφ, i , Dφ0 (Cφ, i ) w , ( wo,1, ., wo, No, wφ,1, ., wφ, Ns ) // Sample trajectories { τCo, i},{τCφ, i } > run_episodes(πθ, C ) // Update CE sampler q > max(\qα({R(τCo,)) i ) } ) , sqβ({R(τC·,i ) } )
0.88
In contrast to the standard CEM, in our problem the target distribution P πθ φ0,α also changes with policy updates. 標準CEMとは対照的に、我々の問題では、ターゲット分布 P πθ φ0,α もポリシー更新とともに変化する。 0.71
The originalMDP samples {Co,i} are intended to stabilize and regularize the CEM w.r.t. the evolving target. オリジナルのMDPサンプル {Co,i} は、CEM w.r.t.の進化ターゲットを安定させ、規則化することを意図している。 0.54
Note that if the policy learning scale is slower than that of φ, the target context distribution P πθ φ0,α is effectively stationary in the φ-optimization problem, thus according to de Mello and Rubinstein [2003], the CEM will converge to the KL-divergence minimizer φ∗ in (4). ポリシー学習スケールがφよりも遅い場合、ターゲットコンテキスト分布 P πθ φ0,α は φ-最適化問題において効果的に定常であり、デ・メロとルビンシュタイン [2003] によれば、CEM は KL-分割最小化 φ∗ に (4) で収束する。 0.83
In Section 4.2 we further motivate the CEM by showing that sampling from the target distribution P πθ φ0,α improves the sample efficiency of the CVaR optimization by a factor of at least α−1. 第4章2では、ターゲット分布 P πθ φ0,α からのサンプリングにより、CVaR 最適化のサンプリング効率が少なくとも α−1 の係数で向上することを示し、CEM をさらに動機付けている。 0.67
Soft-risk scheduling: The policy optimizer (Line 15) uses a soft risk level α(cid:48) that gradually decreases from 1 to α (Line 13). ソフトリスクスケジューリング:ポリシーオプティマイザ(ライン15)はソフトリスクレベルα(cid:48)を使用し、徐々に1からα(ライン13)に減少する。 0.76
The initial α(cid:48) > α allows the optimizer to learn policies with high returns, while the CE sampler still preserves the risk aversion, i.e., the two mechanisms complement each other (as illustrated in Figure 2 and analyzed empirically in Section 5.1). 初期α(cid:48)> αはオプティマイザが高いリターンでポリシーを学習することを可能にし、CEサンプリング器はリスク回避、すなわち2つのメカニズムが互いに補完する(図2で説明され、第5.1節で実証的に分析される)。 0.64
The final α(cid:48) = α guarantees the safety requirement. 最終α(cid:48) = αは安全要件を保証する。 0.86
Soft-risk scheduling is further motivated in Section 4.1, which theoretically shows the existence of the blindness-to-success phenomenon. ソフトリスクスケジューリングは、理論上はブラインド・ツー・サクセス現象の存在を示すセクション4.1でさらに動機付けられている。 0.52
CeSoR can be implemented on top of any CVaRPG method as a baseline (Line 15). CeSoRはCVaRPGメソッド上でベースラインとして実装できる(Line 15)。 0.66
We use the standard GCVaR [Tamar et al , 2015b], which guarantees asymptotic convergence under certain regularity conditions. 一定の規則性条件下での漸近収束を保証する標準GCVaR[Tamar et al , 2015b]を用いる。 0.81
Appendix C shows that these guarantees hold for CeSoR as well, when implemented on top of GCVaR. Appendix Cは、これらの保証がGCVaR上に実装されている場合、CeSoRにも保持されていることを示している。
訳抜け防止モード: Appendix Cは これらの保証は、GCVaR上に実装されたCeSoRにも当てはまる。
0.72
Other CVaR-PG baselines can also be used, such as the TRPObased algorithm of Rajeswaran et al [2017]. 他のCVaR-PGベースラインとしては、RajeswaranらによるTRPOベースのアルゴリズム(2017年)がある。 0.65
However, such methods often include heuristics that introduce additional gradient estimation bias (to reduce variance), and thus, do not necessarily guarantee the same theoretical convergence. しかし、そのような方法はしばしば、(分散を減らすために)追加の勾配推定バイアスを導入するヒューリスティックスを含んでいるため、必ずしも同じ理論収束を保証しない。 0.65
i≤N wi 111R(τCi )≤q logDφ(cid:48)(Ci) i≤N wi 111R(τCi )≤q logDφ(cid:48)(Ci) 0.40
// PG step (e g , Eq 5) α(cid:48) ← max(α, 1 − (1 − α) · m/(ρ · M )) ˆqα(cid:48) ← qα(cid:48)({R(τCo,i)}) θ ← CVaR_PG(πθ, ({τCo,i},{τCφ,i}), w, ˆqα(cid:48)) // PG step (e g , Eq 5) α(cid:48) > max(α, 1 − (1 − α) · m/(ρ · M )) > qα(cid:48)({R(τCo,i)}) θ > CVaR_PG(πθ, ({τCo,i},{τCφ,i}) w, >qα(cid:48)
訳抜け防止モード: pg ステップ (eg, eq 5 ) α(cid:48 ) は max(α,) である。 1 − ( 1 − α ) · m/(ρ · m ) ) , qα(cid:48 ) , qα(cid:48)({r(τco,)) i ) } ) θ > cvar_pg(πθ, ( { τco, ) である。 i},{τcφ , i } ) , w , sqα(cid:48 ) )
0.82
4 Analysis Figure 2: An illustration of training batches. 4つの分析 図2: トレーニングバッチのイラスト。 0.63
Each point represents a training episode with return R and context C. Points of the same color correspond to “similar” agent actions that induce similar policy gradients. 各ポイントは、リターンRとコンテキストCを持つトレーニングエピソードを表します。同じ色のポイントは、同様のポリシー勾配を引き起こす"類似の"エージェントアクションに対応します。 0.71
Mean-PG averages over the whole batch and learns the blue strategy. 平均PGはバッチ全体にわたって平均化し、ブルー戦略を学ぶ。 0.69
CVaR-PG considers the left part (low returns) and thus learns the orange strategy. CVaR-PGは左部分(低いリターン)を考慮し、オレンジ戦略を学ぶ。 0.87
CeSoR uses sampling to focus on the upper part (high-risk contexts), and also decreases α(cid:48) to gradually focus on optimizing worst-case returns, thus learning the purple strategy. CeSoRはサンプリングを使用して上部(高リスクコンテキスト)に集中し、α(cid:48)を減少させ、最悪のケースリターンの最適化に徐々に焦点を合わせ、紫の戦略を学ぶ。 0.65
The illustrated episodes are analog to the strategies in Figures 1d,3. 図は図1d,3の戦略に類似している。 0.67
Section 4.1 motivates the soft-risk scheduling through analysis of the blindness to success phenomenon, which may bring CVaR-PG learning to a local-optimum deadlock. 第4章1節は、盲目から成功現象までの分析を通じてソフトリスクスケジューリングを動機付け、CVaR-PG学習を局所最適デッドロックに導く。 0.59
Section 4.2 motivates the CE sampler through analysis of the potential increase in sample efficiency. 第4章2節は、CEサンプルの効率の潜在的増加の分析を通じてCEサンプルの動機付けを行う。 0.53
Appendix C shows that the convergence result of Tamar et al [2015b] still holds for CeSoR despite the modifications. appendix c は、tamar et al [2015b] の収束結果が cesor に残っていることを示している。
訳抜け防止モード: Appendix Cは Tamar et al [2015b ] の収束結果は、修正にもかかわらず依然として CeSoR を支えている。
0.72
4.1 Blindness to Success 4.1 成功への盲点 0.68
We formally analyze how the blindness to success phenomenon can bring the policy learning to a local-optimum deadlock by ignoring successful agent strategies. 我々は,成功への盲目化が,エージェント戦略を無視することで,政策学習を局所最適デッドロックに導く方法を形式的に分析する。 0.68
This motivates CeSoR’s soft-risk scheduling, which can learn these strategies beyond the local optimum. これはCeSoRのソフトリスクスケジューリングを動機付け、これらの戦略をローカルな最適化を超えて学習することができる。 0.57
5 5 0.42
英語(論文から抽出)日本語訳スコア
α = min{r | FR(a)|π(r) ≥ α}. α = min{r | fr(a)|π(r) ≥ α} である。 0.94
We first introduce the Recall the α-quantile of a return distribution qπ notion of a tail barrier, corresponding to a returns-distribution tail with a constant value. 最初に紹介する リターン分布 qπ のテールバリアの概念の α-量子を、一定値のリターン分布のテールに対応する。 0.67
Definition 1 (Tail barrier). 定義1(Tail barrier)。 0.70
Let α ∈ (0, 1]. α ∈ (0, 1] とする。 0.87
A policy π has an α-tail barrier if ∀α(cid:48) ∈ [0, α] : qπ α. ポリシー π が α-テール障壁を持つとは、α(cid:48) ∈ [0, α] : qπ α が成り立つことである。 0.66
α(cid:48) = qπ Note that in any environment with a discrete rewards distribution, a policy is prone to having a tail barrier. α(cid:48) = qπ 離散的な報酬分布を持つ任意の環境において、ポリシーはテールバリアを持つ傾向があることに注意。 0.70
In existing CVaR-PG analysis [Tamar et al , 2015b], such barriers are often overlooked by assuming continuous rewards. 既存のCVaR-PG分析(Tamar et al , 2015b)では、このような障壁はしばしば連続的な報酬を仮定することで見過ごされる。 0.60
In the Guarded Maze (Section 5.1 and Figure 10c in the appendix), we demonstrate how a standard CVaR-PG exhibits a 0.9-tail barrier, since as many as 90% of the trajectories reach neither the target nor the guard, and thus have identical low returns. ここでは,標準CVaR-PGが0.9尾障壁を示すことを示す。これは軌道の90%が目標にもガードにも達せず,同じ低いリターンを持つためである。
訳抜け防止モード: 番付迷路(付録5.1及び図10c) 標準CVaR-PGが0.9尾障壁を示すことを示す。 軌道の90%は 標的にも 護衛にも届かない 同様に低いリターンが得られます
0.62
A tail barrier has a destructive effect on CVaR-PG. テールバリアはCVaR−PGに破壊効果がある。 0.68
Consider a CVaRα objective, and a policy π with a β-tail barrier where β > α. CVaRα の目的と、β > α となるβ-テール障壁を持つポリシーπを考える。 0.81
Intuitively, any infinitesimal change of π cannot affect the CVaR return, since the returns infinitesimally-above qπ α. 直観的には、π の任意の無限小変化は CVaR の戻りに影響を与えない。 0.65
That is, any tail barrier wider than α brings the CVaR-PG to a stationary point of type plateau. すなわち、αより広い尾障壁はCVaR-PGをプレートの静止点に導く。 0.57
More formally, consider the gradient estimation of Eq (3) with a β-tail barrier β > α: any trajectory has either 111R(τi)≤qπ = 0 (if α) or R(τi) − qπ its return is above qπ α = 0 (otherwise), hence the whole gradient vanishes. より正式には、β-尾障壁 β > α で Eq (3) の勾配推定を考える:任意の軌道は 111R(τi)≤qπ = 0 (if α) または R(τi) − qπ のいずれかを持ち、その回帰は qπ α = 0 (またはその逆) 以上である。 0.86
α and its estimate ˆqα({R(τi)}) (used in Eq 3) may prevent the In practice, a discrepancy between qπ β < ˆqα({R(τi)}). α とその推定値 sqα({r(τi)}) (eq 3) で使われる) は、実際には qπ β < sqα({r(τi)}) の不一致を防ぐことができる。 0.74
Otherwise, if ˆqα({R(τi)}) ≤ qπ gradient from completely vanishing, if qπ β in every subsequent iteration, the gradient remains zero, the policy cannot learn any further, and any trajectory returns beyond qπ α will never be even propagated to the optimizer. さもなくば、qα({r(τi)}) ≤ qπ 勾配が完全に消滅すると、次のイテレーションで qπ β がゼロとなると、その勾配はそれ以上は学習できず、qπ α を超える任意の軌道はオプティマイザに伝播することはない。 0.68
We refer to this phenomenon as blindness to success. 我々はこの現象を成功の盲目と見なしている。 0.77
Definition 2 (Blindness to success). 定義2(成功への盲目)。 0.37
Let a risk level α ∈ (0, 1) and a CVaR-PG training step m0 ≥ 1. リスクレベル α ∈ (0, 1) とCVaR-PG トレーニングステップ m0 ≥ 1 とする。 0.84
Assume that the corresponding policy πm0 has a β-tail barrier with β > α. 対応するポリシー πm0 が β > α のβ-テール障壁を持つと仮定する。 0.76
Denote by {τm,i}N the event of blindness to success in the subsequent n steps: 次の n ステップで成功するための盲目の出来事を {τm,i}n で表す。 0.73
i=1 ∼ P πm the random trajectories in step m ≥ m0. i=1 p πm ステップ m ≥ m0 のランダムな軌道。 0.81
We denote by Bm0,n α are identical to those below qπ Bm0,n で表す α は qπ 以下のものと同じである 0.69
α = qπ α,β α = qπ α,β 0.45
α (cid:16)∀m0 ≤ m < m0 + n : ˆqα({R(τm,i})) ≤ q α (cid:16)-m0 ≤ m < m0 + n :-qα({r(τm,i}) ≤ q 0.44
Bm0,n α,β = Bm0,n α,β = 0.48
(cid:17) πm0 β (cid:17) πm0 β 0.37
. Note that Definition 2 uses q (corresponding to step m0) to bound the returns in training steps m > m0, thus indeed represents training stagnation. . 定義 2 では、トレーニングステップ m > m0 でリターンをバウンドするために q (ステップ m0 に対応する) を使っていることに注意してください。 0.56
Theorem 1 shows that given a β-tail barrier with β > α, the probability to avoid the blindness to success decreases exponentially with β − α. 定理1は、β > α のβ-テール障壁を与えると、成功への盲目を避ける確率は β − α で指数関数的に減少することを示している。 0.71
For example, for n = 106, α = 0.05, β = 0.2, and N = 400, we receive P(¬Bm0,n 例えば、n = 106, α = 0.05, β = 0.2, n = 400 では p(\bm0,n) が与えられる。 0.83
Theorem 1. Assume that πm0 has a β-tail barrier for β ∈ (α, 1). 理論1。 πm0 が β ∈ (α, 1) のβ-テール障壁を持つと仮定する。 0.67
Then, P(cid:16)¬Bm0,n すると P(cid:16) = Bm0,n 0.68
(cid:17) ≤ ne (cid:17)≤ ne 0.48
α,β ) < 10−6. α,β ) < 10−6. 0.47
− N (β−α)2 2β(1−β) . n (β−α)2 2β(1−β) である。 0.66
α,β πm0 β < ˆqα({R(τm,i)}) Proof sketch (see the full proof in Appendix A). α,β πm0 β < >qα({R(τm,i)}) 証明スケッチ (Appendix A の完全な証明を参照)。 0.51
In every step m, we have q only if at least 1− α of the returns are higher than q . 全てのステップ m において、戻り値の少なくとも 1− α が q よりも高いときのみ q を持つ。 0.85
We bound the probability of this event using the Hoeffding inequality (Lemma 1). 我々はhoeffding inequality (lemma 1) を用いてこの事象の確率を制限した。 0.73
In the complementary event the gradient is 0 (due to the barrier), thus the policy does not change, and the argument can be applied inductively to the next step. 補完的な事象において、勾配は(障壁によって) 0 であるので、ポリシーは変化せず、引数は次のステップに帰納的に適用できる。 0.70
The soft risk of CeSoR artificially modifies the risk level to α(cid:48) (cid:54)= α, beginning the training with α(cid:48) ≈ 1, such that there cannot be a wider tail barrier β > α(cid:48). チェザーのソフトリスクは、リスクレベルをα(cid:48) (cid:54)= αに人為的に修正し、α(cid:48) で訓練を開始することにより、より広いテールバリアβ > α(cid:48) が存在しない。 0.66
Thus, CeSoR can feed the optimizer with trajectories whose returns qπ α(cid:48) are higher than the constant tail, and prevent the gradient from vanishing. したがって、CeSoRは、pπα(cid:48)が一定の尾よりも高い軌道をオプティマイザに供給し、勾配が消えるのを防ぐことができる。 0.57
In this sense, CeSoR looks beyond the local optimum to prevent the blindness to success. この意味では、CeSoRは成功への盲目を防ぐために、局所的な最適化を越えている。
訳抜け防止モード: この意味で、CeSoRは局所的な最適点を超える 成功への盲目を防ぐためです
0.71
Note that CeSoR uses a simple linear-decay scheduling; an adaptive α(cid:48) scheduling that maximizes blindness prevention probability would require tighter concentration inequalities [Boucheron et al , 2013], and is left for future work. CeSoRは単純な線形デカイスケジューリングを使用し、盲目防止確率を最大化する適応α(cid:48)スケジューリングは、より厳密な濃度の不等式を必要とする(Boucheron et al , 2013)。 0.78
β < R ≤ qπ β < r ≤ qπ である。 0.64
πm0 β πm0 β πm0 β πm0 β 0.35
4.2 Variance Reduction and Sample Efficiency 4.2 ばらつき低減とサンプル効率 0.84
We analyze the effect of the CEM on the variance of the gradient in Eq (3). 本研究では,cemがeqの勾配のばらつきに及ぼす影響について解析する(3)。 0.66
Note that in the first phase of CeSoR, with soft risk α(cid:48) > α, the gradient estimator is intentionally biased; however, as this phase is merely transient, we can focus our attention to the final steady-state phase where α(cid:48) = α. ソフトリスク α(cid:48) > α である CeSoR の第1相において、勾配推定器は意図的に偏りがあるが、この相は過渡的なだけであるため、α(cid:48) = α である最終的な定常相に注意を集中することができる。 0.70
Recall that the CEM learns φ, aiming to find φ∗ that best aligns the distribution Dφ∗ (C)P πθ C (τ ) with the α-worst-case distribution P πθ C (τ ). CEM は φ を学習し、分布 Dφ∗ (C)P πθ C (τ ) と α-ワーストケース分布 P πθ C (τ ) とを最もよく整合するφ∗ を求める。 0.80
Proposition 1 motivates this objective, showing that by sampling from the latter distribution, the variance of the CVaR policy 命題1はこの目的を動機づけ、後者の分布からサンプリングすることでCVaRポリシーのばらつきを示す 0.78
φ0,α(C, τ ) = Dφ0(C) · 1 φ0,α(C, τ ) = Dφ0(C) · 1 0.50
α 1R(τ )≤qαP πθ α 1R(τ )≤qαP πθ 0.39
6 6 0.43
英語(論文から抽出)日本語訳スコア
gradient estimate is reduced by a factor of α−1, corresponding to an increase by factor α−1 in sample efficiency. 勾配推定は、試料効率のα-1因子の増加に対応するα−1因子によって還元される。 0.78
Note that if the policy parameter θ is updated on a slower scale than φ, one can effectively assume that πθ is stationary in Line 12 of Algorithm 1, and that the CEM indeed converges to φ∗. ポリシーパラメータ θ が φ よりも遅いスケールで更新されると、πθ はアルゴリズム 1 の 12 行で定常であり、CEM が φ∗ に収束することを効果的に仮定できる。 0.78
Proposition 1 (Variance reduction). 提案1(ばらつき低減)。 0.55
Assume that the quantile estimation error is negligible (ˆqα = φ0,α(C, τ )|| Dφ(C)P πθ qα(R)), and that the CEM achieves optimality: DKL(P πθ C (τ )) = 0. 量子化推定誤差が無視可能であると仮定すると、CEM は DKL(P πθ C (τ )) = 0 となる( φ0,α(C, τ )|| Dφ(C)P πθ qα(R))。
訳抜け防止モード: 量子化推定誤差が無視可能であると仮定する( sqα = φ0,α(C, τ ) || Dφ(C)P πθ qα(R ) )。 そして、CEMは最適性を達成する: DKL(P πθ C ( τ ) ) = 0。
0.86
Then, the CE-sampling reduces the variance of the CVaR-PG estimate by a factor of α−1: (∇θ ˆJα({τi}N すると、CEサンプリングは、CVaR-PG推定値のばらつきをα−1の係数で減少させる。 0.64
i=1; πθ)) ≤ α · Varτi∼P i=1; πθ)) ≤ α · Varτi>P 0.35
(∇θ ˆJα({τi}N (~θ >Jα({τi}N) 0.66
VarC∼Dφ,τi∼P ヴァルチェドφ,τi'P 0.28
πθ C πθ φ0 πθ C πθ φ0 0.39
i=1; πθ)). Proof sketch (see the full proof in Appendix B). i=1; πθ)。 証明スケッチ(Appendix Bの完全な証明を参照)。 0.79
When applying IS analysis to the expected value, the IS weight w(C) = Dφ0(C)/Dφ(C) cancels out the distributional shift (as in Eq 4), resulting in the same expected gradient estimate. IS分析を期待値に適用すると、IS重み w(C) = Dφ0(C)/Dφ(C) は(Eq 4 のように)分布シフトをキャンセルし、同じ期待の勾配推定をもたらす。 0.79
When applying the same analysis to the variance, we begin with the square weight w(C)2, thus a w(C) factor remains after the distributional shift compensation. 分散に同じ解析を適用する際、二乗重み w(C)2 から始めるので、分配シフト補償の後、w(C) 因子が残る。 0.63
Under the conditions of the proposition, we have w(C) ≡ α w.p. 1, which leads to the desired result. 命題の条件の下では、w(c) を α w.p. 1 とすると、望ましい結果が得られる。 0.75
The variance reduction can be connected to sample efficiency through the convergence rate as follows. 分散還元は、以下の収束速度を通してサンプル効率に接続することができる。 0.72
According to Theorem 5.5 in Xu et al [2020], denoting the initial parameters by θ0, the convergence of any CVaR-PG algorithm can be written as E[(cid:107)∇θJα(πθ)(cid:107)2] ≤ O( Jα(θ)−Jα(θ0) ) + O( Var(∇θ ˆJα({τi}N ). Xu et al [2020] の Theorem 5.5 によれば、任意の CVaR-PG アルゴリズムの収束は E[(cid:107)*θJα(πθ)(cid:107)2] ≤ O(Jα(θ)−Jα(θ0) ) + O( Var(\θ >Jα({τi}N)) と書くことができる。 0.82
Clearly, variance reduction of α-factor linearly improves the second term. 明らかに、α因子の分散還元は第2項を線形に改善する。 0.61
In particular, it cancels out the denominator’s α-factor attributed to tail sub-sampling, and brings the sample efficiency back to the level of the risk-neutral PG. 特に、テールサブサンプリングに起因する分母のα因子をキャンセルし、サンプル効率をリスクニュートラルpgのレベルに戻す。
訳抜け防止モード: 特に、denominator の α - factor はtail sub - sample によってキャンセルされる。 そして、サンプルの効率をリスクのレベル - 中性pg - に戻します。
0.59
In practice, due to function approximation error, Dφ∗ (C)P πθ distribution P πθ sample efficiency, as empirically demonstrated in Section 5 and Appendix D. 実際、関数近似誤差により、Dφ∗ (C)P πθ分布 P πθサンプル効率は、セクション5とアペンディックスDで実証的に示された。 0.76
C (τ ) often cannot replicate the tail φ0,α(C, τ ) to achieve α-variance reduction; yet, the CEM can significantly improve C (τ ) は α-分散還元を達成するために尾 φ0,α(C, τ ) を複製できないことが多いが、CEM は大幅に改善できる。 0.78
i=1;πθ)) αN i=1;πθ) αN 0.43
M 5 Experiments We conduct experiments in 3 different domains. M 5 実験 3つの異なる領域で実験を行います。 0.63
We implement CeSoR on top of a standard CVaR-PG method, which is also used as a risk-averse baseline for comparison. 本稿では,標準CVaR-PG法上にCeSoRを実装した。
訳抜け防止モード: 標準CVaR-PG法上にCeSoRを実装した。 リスク - 比較のための逆ベースラインとしても使用される。
0.73
Specifically, we use the standard GCVaR baseline [Tamar et al , 2015b], which guarantees convenient convergence properties (see Appendix C) and is simple to implement and analyze. 具体的には、便利な収束性を保証する標準GCVaRベースライン[Tamar et al , 2015b]を使用し(Appendix C参照)、実装と解析が簡単である。 0.80
We also use the standard policy gradient (PG) as a risk-neutral baseline, to present the mean-CVaR tradeoff. また、リスクニュートラルベースラインとして標準方針勾配(PG)を用いて、平均CVaRトレードオフを示す。 0.73
In all the experiments, all agents are trained using Adam [Diederik P. Kingma, 2014], with a learning rate selected manually per benchmark and N = 400 episodes per training step. すべての実験において、すべてのエージェントはAdam(Diederik P. Kingma, 2014)を使ってトレーニングされます。
訳抜け防止モード: すべての実験において、全てのエージェントはAdam[Diederik P. Kingma]を使って訓練される。 ベンチマーク毎に手作業で選択した学習率 そして、N = 400回トレーニングステップ。
0.71
Every 10 steps we run validation episodes, and eventually choose the final policy according to the best validation score (best mean for PG, best CVaR for GCVaR and CeSoR). 検証エピソードを実行する10ステップ毎に、最終的に、最高のバリデーションスコア(PGの平均、GCVaRとCeSoRのベストCVaR)に従って最終ポリシーを選択します。 0.74
For CeSoR, unless specified otherwise, ν = 20% of the trajectories per batch are drawn from the original distribution Dφ0; β = 20% are used for the CE update; and the soft risk level reaches its α-target after ρ = 80% of the training. CeSoR の場合、指定がなければ、バッチ毎の軌道の ν = 20% は元の分布 Dφ0 から引き出され、β = 20% は CE 更新に使われ、ソフトリスクレベルは ρ = 80% のトレーニング後に α-ターゲットに達する。 0.82
For numerical stability, we also clip the IS weights (Algorithm 1, Line 9) to the range [1/5, 5]. 数値安定性のために、IS重み (Algorithm 1, Line 9) を [1/5, 5] の範囲にクリップする。 0.73
Every policy is modeled as a neural network with tanh activation on its middle layers and sof tmax operator on its output, with temperature 1 in training (i.e., network outputs are actions probabilities), and 0 in validation and test (i.e., the max output is the selected action). すべてのポリシは、中間層にtanhアクティベーション、その出力にsof tmaxオペレータ、トレーニングに温度1(ネットワーク出力はアクション確率)、検証とテストで0(最大出力は選択されたアクション)を持つニューラルネットワークとしてモデル化される。 0.75
We use a middle layer with 32 neurons in Section 5.2, 16 neurons in Section 5.3, and no middle layer (linear model) in Section 5.1. 我々は,第5.2節の32ニューロン,第5.3節の16ニューロン,第5.1節の中間層(線形モデル)を用いている。 0.73
In each of the 3 domains, the experiments required a running time of a few hours on an Ubuntu machine with eight i9-10900X CPU cores. 3つのドメインそれぞれにおいて、実験は8つのi9-10900x cpuコアを持つubuntuマシン上で数時間の実行時間を必要とした。 0.72
In addition to these RL-related experiments, Appendix D presents dedicated experiments for the independent CE module. これらのRLに関する実験に加えて、Appendix D は独立CEモジュールのための専用の実験を行う。 0.70
5.1 The Guarded Maze Benchmark: The Guarded Maze benchmark is visualized in Figure 1d. 5.1番の迷路 ベンチマーク: guarded mazeベンチマークは図1dで視覚化されます。 0.59
The goal is to reach the target zone (a constant location marked in green), resulting in a reward of 16 points. ゴールは目標のゾーン(グリーンでマークされた一定の位置)に到達し、16ポイントの報酬を得ることである。 0.80
However, the guarded zone (in red) may be watched by a guard who demands a payment from any agent that passes by. しかし、ガードゾーン(赤)は、通りかかったエージェントからの支払いを要求する警備員によって監視される可能性がある。 0.75
Every episode, the probability that a guard is present is φ1 = 20%, and the corresponding payment is exponentially-distri buted with average φ2 = 32. 各エピソードにおいて、ガードが存在する確率は φ1 = 20%であり、対応する支払いは平均 φ2 = 32 で指数関数的に分配される。 0.76
That is, the cost of crossing the guarded zone in a certain episode is C = C1 · C2, where C1 ∼ Ber(φ1), C2 ∼ Exp(φ2) are independent and すなわち、あるエピソードにおいてガードゾーンを横断するコストは、C = C1 · C2 であり、C1 は Ber(φ1)、C2 は Exp(φ2) である。 0.87
7 7 0.42
英語(論文から抽出)日本語訳スコア
unknown to the agent. エージェントに知られてない 0.65
The agent starts at a random point, and every time-step based on its location and it selects one of four actions: left, right, up or down, with an additive control noise. エージェントはランダムなポイントから始まり、その位置に基づいて各タイムステップで左、右、上、下という4つのアクションのうちの1つを加算制御ノイズで選択する。 0.74
One point is deducted per step, up to 32 deductions. 1ステップごとに1ポイント減算され、最大32ポイント減算される。 0.56
We set a target risk level of α = 0.05, and train each agent for n = 250 steps with the parameters described above. α = 0.05 の目標リスクレベルを設定し、上記のパラメータを用いて n = 250 ステップごとに各エージェントを訓練する。 0.82
The CEM controls C through φ = (φ1, φ2), where φ0 = (0.2, 32) as mentioned above, and updates φ1, φ2 using the weighted means of C1 and C2, respectively. CEMは、前述したφ0 = (0.2, 32) を通じて C を制御し、それぞれ C1 と C2 の重み付き手段を用いて φ1, φ2 を更新する。 0.80
In addition, as an ablation test, we also implement two partial variants of our CeSoR: CeR (with CE, without α-scheduling) and SoR (with scheduling, without CE). また,Ablationテストとして,CeSoR(CEはαスケジュールなし)とSoR(CEは不要)の2つの部分的変種を実装した。
訳抜け防止モード: さらに、アブレーション試験として、我々はCeSoR : CeR ( with CE,) の2つの部分的変種も実装した。 without α - スケジューリング ) と SoR (スケジューリングは CE なしで) です。
0.72
See Appendix E.1 for more details. 詳細はAppendix E.1を参照。 0.83
Results: Figure 1a summarizes the test scores of the agents, and Figure 1d illustrates a sample episode. 結果: 図1aはエージェントのテストスコアを要約し、図1dはサンプルエピソードを示します。 0.83
PG learned the short path to the target, maximizing the average but at the cost of poor returns whenever charged by the guard. PGは目標への短い経路を学習し、平均を最大化するが、ガードが突撃するたびに低いリターンを犠牲にする。 0.69
CeSoR, on the other hand, successfully learned to follow the CVaR-optimal long path. 一方、CeSoRはCVaR最適長経路の学習に成功した。 0.61
GCVaR, which also aimed to maximize the CVaR, failed to do so. CVaRの最大化を目指すGCVaRは失敗に終わった。 0.57
As analyzed in Figure 3, throughout GCVaR training, the agent takes the long path in up to 50% of the episodes per batch, but none of these episodes is ever included in the bottom α = 5% that are fed to the optimizer. 図3で分析されたように、GCVaRトレーニングを通して、エージェントは1バッチあたりのエピソードの最大50%の長いパスを取るが、これらのエピソードはオプティマイザに供給される下位α = 5%に含まれることはない。 0.74
Thus, GCVaR is entirely blind to the successful episodes and fails to learn the corresponding strategy. したがって、GCVaRは成功エピソードに完全に盲目であり、対応する戦略を学ばない。 0.76
In fact, in most training steps, all the worst episodes of GCVaR reach neither the guard nor the target, leading to a constant return of −32, a tail barrier, and a zero loss-gradient. 実際、ほとんどのトレーニングステップでは、GCVaRの最悪のエピソードはガードも目標も到達せず、−32のリターン、テールバリア、ゼロのロスグラディエントとなる。
訳抜け防止モード: 実際、ほとんどのトレーニングステップでは、gcvarの最悪のエピソードはすべてガードにもターゲットにも届かない。 一定のリターンは −32 であり、テールバリアであり、損失はゼロである。
0.62
CeR suffers from blindness to success just as GCVaR. CeRはGCVaRと同じように盲目から成功に苦しむ。 0.79
SoR is exposed to the successful long-path episodes thanks to soft risk scheduling; however, due to the reduced risk-aversion, it fails to prefer the long path over the short one. SoRはソフトリスクスケジューリングによって成功したロングパスエピソードに曝されるが、リスク回避の減少により、ショートパスよりもロングパスが好まれない。 0.67
Only CeSoR both observes the "good" strategy (thanks to soft risk scheduling) and judges it under "bad" environment variations (thanks to the CEM). CeSoRだけが「良い」戦略(ソフトリスクスケジューリングによる)を観察し、「悪い」環境のバリエーション(CEMによる)で判断する。 0.70
Appendix E.2 presents a detailed analysis of the learning dynamics, the blindness to success and the learned policies. Appendix E.2は、学習力学、成功への盲目、学習方針の詳細な分析を提示する。 0.73
It is important to notice that standard optimization tweaks cannot bring GCVaR to learn the long path: a "warm-start" from a standard PG only encourages the short-path policy (as in SoR); and increased batch size N does not expose the optimizer to the long path (see Theorem 1). 標準PGからのウォームスタート(warm-start)はショートパスポリシー(SoRのように)を奨励するだけであり、バッチサイズが増大したNはオプティマイザをロングパスに公開しない(Theorem 1)。
訳抜け防止モード: 標準最適化では、GCVaRが長いパスを学習できない点に注意が必要だ。標準PGからの"ウォーム - スタート"は、(SoRのように)短いパスポリシーを奨励するだけである。 そして、バッチサイズが増大したNは、オプティマイザをlongパスに公開しない。 Theorem 1 を参照。
0.63
Figure 3: GCVaR, SoR, CeSoR: %-episodes that did not reach the target ("stay"), or reached it through the short or the long path in the Guarded Maze. 図3: gcvar, sor, cesor: %-episodes ターゲット("stay")に届かなかったり、ガードされた迷路の短い道または長い道を通って到達した。 0.65
Bottom Right: %-long-paths among the trajectories fed to the optimizer. 右下:オプティマイザに供給されるトラジェクタ間の %-long-path 。 0.61
See more details in Figure 10. 詳細は図10を参照してください。 0.73
5.2 The Driving Game 5.2 ドライブゲーム 0.87
Benchmark: The Driving Game is based on an inverse-RL benchmark used by Majumdar et al [2017] and Singh et al [2018]. ベンチマーク: Driving GameはMageumdar et al [2017] と Singh et al [2018] が使用している逆RLベンチマークに基づいています。 0.72
The agent’s car has to follow the leader (an "erratic driver") for 30 seconds as closely as possible without colliding. エージェントの車は、衝突することなく、可能な限り30秒間、リーダー("erratic driver")に追従しなければならない。 0.74
Every 1.5 seconds (i.e., 20 times per episode), the leader chooses a random action (independently of the agent): drive straight, accelerate, decelerate, change lane, or brake hard ("emergency brake"), with respective probabilities φ0 = (0.35, 0.3, 0.248, 0.1, 0.002). 1.5秒毎に、リーダーはランダムなアクション(エージェントとは独立して)を選択し、それぞれの確率 φ0 = (0.35, 0.3, 0.248, 0.1, 0.002) で、ストレート、アクセラレーション、減速、変更レーン、ブレーキハード(緊急ブレーキ)を駆動する。 0.72
We denote the sequence of leader actions by C ∈ {1, ..., 5}20. C ∈ {1, ..., 5}20 によるリーダー作用の列を表す。 0.56
Every 0.5 seconds (60 times per episode), the agent observes its relative position and velocity to the leader, with a delay of 0.7 seconds (representing reaction time), as well as its own acceleration and steering direction. 0.5秒ごとに(エピソード毎60回)、エージェントはリーダーに対する相対的な位置と速度を観察し、その速度は0.7秒(反応時間を表す)で、加速と操舵方向も記録する。 0.80
The agent chooses one of the five actions: drive in the same steering direction, accelerate, decelerate, turn left, or turn right. エージェントは同じ操舵方向を走行し、加速し、減速し、左に曲がり、右に曲がる5つのアクションのうちの1つを選択する。 0.66
Changing lane is not an atomic action and has to be learned using turns. レーン変更はアトミックアクションではなく、ターンを使って学ぶ必要がある。 0.65
The rewards express the requirements to stay behind the leader, on the road, on the same lane, not too far behind and without colliding. 報酬は、リーダーの後ろ、道路、同じ車線に留まらなければならない要件を表し、衝突することなく、遠くまで及ばない。 0.65
See the complete details in Appendix F.1. 詳細はAppendix F.1を参照。 0.76
We set α = 0.01, and train each agent for n = 500 steps. α = 0.01 を設定し、各エージェントを n = 500 ステップで訓練する。 0.81
To initiate learning, for each agent we begin with shorter training episodes of 6 seconds and gradually increase the length throughout the training. 学習を開始するために、各エージェントは6秒の短いトレーニングエピソードから始め、トレーニングを通じて徐々に長さを増加させます。 0.72
The CEM controls the leader’s behavior through the probabilities φ = {φi}5 Results: Figure 1b summarizes the test scores of the agents, where CeSoR presents a reduction of 28% in the CVaR cost in comparison to the baselines. 図1bはエージェントのテストスコアを要約し、cesorはベースラインと比較してcvarコストの28%の削減を示す。
訳抜け防止モード: cemは、確率 φ = { φi}5 の結果を通してリーダーの振る舞いを制御する: 図 1bはエージェントのテストスコアを要約する。 ここでcesorは、ベースラインと比較してcvarコストの28パーセントの削減を示す。
0.52
GCVaR completely fails to learn a reasonable policy – losing in terms of CVaR even to the risk-neutral PG. GCVaRは完全に合理的な政策を学ばず、CVaRはリスクニュートラルPGでさえも失われる。 0.77
Appendix F.2 presents a detailed analysis of the results. Appendix F.2は結果を詳細に分析する。 0.87
In particular, analysis of the agents strategies shows that CeSoR learned to 特に、エージェント戦略の分析は、CeSoRが学んだことを示している。 0.62
i=1 described above. 8 i=1 上述。 8 0.65
英語(論文から抽出)日本語訳スコア
keep a safer distance from the leader in comparison to PG, and to use the gas and the brake less frequently. pgと比較してリーダーからより安全な距離を保ち、ガスやブレーキの使用頻度を低くする。 0.67
This results in complete avoidance of the rare accidents occurring to PG, as demonstrated in Figure 1e. この結果、図1eで示されるように、pgに起こるまれな事故を完全に回避できる。 0.66
In Appendix D, we also see that by increasing the number of sampled leader turns and emergency brakes, the CEM manages to align the mean return of the training samples with the 1%-CVaR of the environment, and significantly increases the data efficiency of the optimizer. Appendix Dでは、サンプルリーダのターン数や緊急ブレーキの数を増やすことで、トレーニングサンプルの平均戻り値を環境の1%-CVaRに合わせることができ、オプティマイザのデータ効率を大幅に向上させることができる。 0.64
5.3 The Computational Resource Allocation Problem 5.3 計算資源配分問題 0.83
Benchmark: Computational resource allocation in serving systems, and in particular the tradeoff between resource cost and serving latency, is an important challenge to both academia [Jiang et al , 2013, Tessler et al , 2022] and industry [Barr, 2018, Lunden, 2022]. ベンチマーク: サービスシステムにおける計算リソースの割り当て、特にリソースコストとレイテンシのトレードオフは、アカデミア[jiang et al , 2013 tessler et al , 2022]と業界[barr, 2018, lunden, 2022]の両方にとって重要な課題である。 0.71
In many popular applications such as E-commerce and news, latency is most critical at times of peak loads [Garces, 2019], making CVaR a natural metric for risk-averse optimization. Eコマースやニュースなどの一般的なアプリケーションでは、ピーク時の遅延が最も重要であり(Garces, 2019)、CVaRがリスク-逆最適化の自然な指標になります。 0.62
In our benchmark, the agent allocates servers to handle user requests, managing the tradeoff between servers cost and time-to-service (TTS). ベンチマークでは、エージェントがサーバを割り当て、ユーザリクエストの処理、サーバコストとTTS(Time-to-Service) 間のトレードオフを管理します。 0.64
The arrival of requests is simulated randomly with a constant rate, up to rare events that cause sudden peak loads, whose frequency is controlled by the CE sampler. 要求の到着はランダムに一定のレートでシミュレートされ、突然のピーク負荷を引き起こすまれな事象まで、その頻度はceサンプリングによって制御される。 0.75
See Appendix G for more details. 詳細は appendix g を参照のこと。 0.75
Results: As shown in Figure 1c, CeSoR significantly improves the CVaR return, and does not compromise the mean as much as GCVaR. 結果: 図1cに示すように、CeSoRはCVaRのリターンを著しく改善し、GCVaRほど平均を損なわない。 0.74
As demonstrated in Figure 1f, CeSoR learned to allocate a default of 5 servers and react to peak loads as needed, whereas GCVaR simply allocates 8 servers at all times. 図1fで示されているように、cesorはデフォルトの5つのサーバを割り当て、必要に応じてピーク負荷に反応することを学びました。
訳抜け防止モード: 図1に示すように、CeSoRはデフォルトの5サーバを割り当てることを学びました。 GCVaRは、常に8つのサーバを割り当てている。
0.70
PG only allocates 4 servers by default, and thus its TTS is more sensitive to peak loads. PGはデフォルトで4サーバのみを割り当てているので、TTSはピーク負荷に対してより敏感である。
訳抜け防止モード: PGはデフォルトで4サーバのみを割り当てる。 したがって、TSはピーク負荷に敏感である。
0.79
Appendix G describes the complete implementation and detailed results, discusses the poor parameterization of Dφ in this problem and shows the robustness of CeSoR to it. Appendix G は完全な実装と詳細な結果を説明し、この問題における Dφ のパラメータ化の貧弱さを論じ、CeSoR の堅牢性を示す。 0.75
6 Summary and Future Work 6 概要と今後の課題 0.75
We introduced CeSoR, a novel method for risk-averse RL, focused on efficient sampling and soft risk. 我々は,効率的なサンプリングとソフトリスクに着目したリスク逆RLの新しい手法であるCeSoRを紹介した。 0.62
In a variety of experimental domains, in comparison to a risk-averse baseline, CeSoR demonstrated higher CVaR metric, better sample-efficiency, and elimination of blindness to success – where the latter two were also analyzed theoretically. 様々な実験領域において、リスク逆ベースラインと比較して、CeSoRはより高いCVaR測定値、より良いサンプル効率、成功への盲点の排除を実証した。 0.57
There are certain limitations to CeSoR. CeSoRにはいくつかの制限がある。 0.65
First, we assume to have at least partial control over the training conditions, through a parametric family of distributions that needs to be selected. 第一に、選択する必要がある分布のパラメトリック族を通して、トレーニング条件を少なくとも部分的に制御していると仮定する。 0.72
Second, CeSoR can be applied robustly on top of any CVaR-PG method, but is currently not applicable to non-PG methods. 第二に、CeSoRはどんなCVaR-PG法にも強く適用できるが、現在は非PG法には適用できない。 0.72
Future work may adjust CeSoR to risk-averse distributional RL, as well as other risk measures. 今後の作業は、CeSoRを、他のリスク対策と同様に、リスク逆分布RLに調整することができる。
訳抜け防止モード: 今後の作業はリスクに照準を合わせる - averse distributional rl, 他のリスク対策と同様に。
0.67
Third, in terms of blindness to success and estimation variance, CeSoR shows both theoretical and empirical improvement – but is not proven optimal. 第三に、成功と見積もりの分散の盲点に関して、CeSoRは理論と経験的改善の両方を示しているが、最適ではない。 0.63
Future work may look for optimal design of CEM or risk scheduling. 将来の作業は、cemの最適設計やリスクスケジューリングを求めるかもしれない。 0.54
Considering the current results and the potential extensions, we believe that CeSoR may open the door for more practical applications of risk-averse RL. 現在の結果と潜在的な拡張を考えると、我々はCeSoRがリスク回避RLのより実用的な応用の扉を開くと考えている。 0.71
9 9 0.42
英語(論文から抽出)日本語訳スコア
References Barr. Jeff Barrを参照。 ジェフ 0.68
Predictive scaling for 予測 スケーリング ですから 0.60
learning, new-predictive-scali ng-for-ec2-powered-b y-machine-learning/. 学習、新しい予測スケーリング、EC2による機械学習/. 0.28
2018. URL EC2, 2018. URL ec2。 0.62
machine https://aws.amazon.c om/blogs/aws/ machine https://aws.amazon.c om/blogs/aws/ 0.18
powered by Cristian Bodnar, Adrian Li, Karol Hausman, Peter Pastor, and Mrinal Kalakrishnan. 動力 ところで Cristian Bodnar、Adrian Li、Kaol Hausman、Peter Pastor、Mrinal Kalakrishnan。 0.50
Quantile QT-Opt for risk-aware vision-based robotic grasping. リスク認識型ロボットグルーピングのための量子QT-Opt 0.52
In Proceedings of Robotics: Science and Systems, Corvalis, Oregon, USA, July 2020. proceedings of robotics: science and systems, corvalis, oregon, usa, 2020年7月。 0.74
doi: 10.15607/RSS.2020.XV I.075. doi: 10.15607/rss.2020.xv i.075。 0.35
V. S. Borkar and S. P. Meyn. V.S.ボルカールとS.P.メイン。 0.44
Risk-sensitive optimal control for Markov decision processes with マルコフ決定過程のリスクに敏感な最適制御 0.80
monotone cost. Mathematics of Operations Research, 27(1):192–209, 2002. 単調のコスト。 算術演算研究27(1):192–209, 2002。 0.51
Vivek Borkar and Rahul Jain. Vivek BorkarとRahul Jain。 0.37
Risk-constrained Markov decision processes. リスク制約付きマルコフ決定プロセス。 0.65
IEEE Transactions on IEEE Transactions on 0.42
Automatic Control, 2014. 2014年、自動制御。 0.89
Stéphane Boucheron, Gábor Lugosi, and Pascal Massart. Stéphane Boucheron、Gábor Lugosi、Pascal Massart。 0.34
Concentration inequalities: A nonasymptotic 濃度不等式:無症候性 0.70
theory of independence. Oxford university press, 2013. 独立の理論だ オックスフォード大学出版局、2013年。 0.69
Y. Chow and M. Ghavamzadeh. Y.ChowとM.Ghavamzadeh。 0.35
Algorithms for CVaR optimization in MDPs. MDPにおけるCVaR最適化アルゴリズム 0.81
In Proceedings of Advances in Neural Information Processing Systems 27, pages 3509–3517, 2014. 訴訟の手続において ニューラル情報処理システムの進歩 27 ページ 3509–3517, 2014 0.55
Y. Chow, A. Tamar, S. Mannor, and M. Pavone. Y. Chow、A. Tamar、S. Mannor、M. Pavone。 0.44
Risk-sensitive and robust decision-making: a CVaR リスクに敏感で堅牢な意思決定:CVaR 0.66
optimization approach. In Advances in Neural Information Processing Systems, 2015. 最適化アプローチ。 2015年、ニューラル・インフォメーション・プロセッシング・システムズ(neural information processing systems)。 0.70
Will Dabney, Georg Ostrovski, David Silver, and Remi Munos. ウィル・ダブニー、ゲオルク・オストロフスキ、デイヴィッド・シルバー、レミ・ムノス。 0.49
Implicit quantile networks for distributional reinforcement learning. 分散強化学習のための暗黙的量子ネットワーク 0.73
In Proceedings of the 35th International Conference on Machine Learning, pages 1096–1105, 2018. 第35回機械学習国際会議の議事録で、2018年1096-1105頁。 0.72
Frederic Dambreville. フレデリック・ダンブレヴィル。 0.63
Cross-entropy method: convergence issues for extended implementation, クロスエントロピー法:拡張実装における収束問題 0.74
2006. P. T. de Boer, Dirk P. Kroese, Shie Mannor, and Reuven Y. Rubinstein. 2006. P. T. de Boer, Dirk P. Kroese, Shie Mannor, Reuven Y. Rubinstein 0.44
A tutorial on the cross-entropy クロスエントロピーに関するチュートリアル 0.53
method. Annals of Operations Research, 134:19–67, 2005. 方法。 Anals of Operations Research, 134:19–67, 2005 0.37
Tito Homem de Mello and Reuven Y. Rubinstein. Tito Homem de Mello and Reuven Y. Rubinstein 0.41
Rare event estimation for static models via 静的モデルを用いた希少事象推定 0.74
cross-entropy and importance sampling, 2003. クロスエントロピーと重要サンプリング, 2003。 0.75
Jimmy Ba Diederik P. Kingma. ジミー・バ・ディーデリク・p・キングマ。 0.46
Adam: A method for stochastic optimization, 2014. Adam: 2014年、確率最適化の方法です。 0.75
URL https: URL https: 0.42
//arxiv.org/abs/1412 .6980. axiv.org/abs/1412.69 80。 0.11
Yingjie Fei, Zhuoran Yang, Yudong Chen, and Zhaoran Wang. Yingjie Fei, Zhuoran Yang, Yudong Chen, Zhaoran Wang 0.32
Exponential bellman equation and improved regret bounds for risk-sensitive reinforcement learning. リスク感受性強化学習のための指数ベルマン方程式と改善された後悔境界 0.59
Advances in Neural Information Processing Systems, 34, 2021. ニューラル情報処理システム(34,2021)の進歩 0.67
Carla Prat Garces. カルラ・プラット・ガース 0.47
The problem of peak loads in web applications and its solutions, 2019. Webアプリケーションとそのソリューションにおけるピークロードの問題(2019年)。 0.79
Javier García and Fernando Fernández. ハビエル・ガルシアとフェルナンド・フェルナンデス。 0.51
A comprehensive survey on safe reinforcement learning. 安全強化学習に関する総合的な調査 0.72
J. Mach. Learn. J。 マッハ 学ぶ。 0.43
Res., 16:1437–1480, 2015. res., 16:1437–1480, 2015年。 0.63
Mathieu Godbout, Maxime Heuillet, Sharath Chandra, Rupali Bhati, and Audrey Durand. Mathieu Godbout、Maxime Heuillet、Sharath Chandra、Rupali Bhati、Audrey Durand。 0.35
CARL: Conditional-value-at -risk adversarial reinforcement learning. CARL: 条件値-リスク-リスク強化学習。 0.59
arXiv preprint arXiv:2109.09470, 2021. arXiv preprint arXiv:2109.09470, 2021 0.40
Takuya Hiraoka, Takahisa Imagawa, Tatsuya Mori, Takashi Onishi, and Yoshimasa Tsuruoka. 平岡沢屋、今川高久、森辰屋、大西孝志、鶴岡義政。 0.23
Learn- ing robust options by conditional value at risk optimization. 学ぶ リスク最適化における条件付き値によるロバストオプションのing。 0.61
NeurIPS, 05 2019. 2019年、05頁。 0.57
Wassily Hoeffding. Wassily Hoeffding。 0.39
Probability inequalities for sums of bounded random variables. 有界確率変数の和に対する確率不等式。 0.71
In The collected works of Wassily Hoeffding, pages 409–426. 収集された ホッフディング』409-426頁。 0.59
Springer, 1994. 1994年、スプリンガー。 0.57
L. Jeff Hong and Guangwu Liu. L. Jeff HongとGuangwu Liu。 0.93
Simulating sensitivities of conditional value at risk. リスク条件値の感度をシミュレートする。 0.75
Management Science, 55(2):281–293, 2009. 経営科学 55(2):281-293, 2009 0.80
ISSN 00251909, 15265501. issn 00251909, 15265501。 0.44
URL http://www.jstor.org / stable/40539145. URL http://www.jstor.org / stable/40539145 0.27
10 10 0.43
英語(論文から抽出)日本語訳スコア
Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar Azizzadenesheli. Audrey Huang, Liu Leqi, Zachary C. Lipton, Kamyar Azizzadenesheli 0.35
On the convergence and optimality of policy gradient for markov coherent risk, 2021a. マルコフコヒーレントリスク(2021a)に対する政策勾配の収束と最適性について 0.65
URL https://arxiv.org/ab s/ 2103.02827. url https://arxiv.org/ab s/ 2103.02827。 0.48
Kevin Huang, Sahin Lale, Ugo Rosolia, Yuanyuan Shi, and Anima Anandkumar. kevin huang、sahin lale、ugo rosolia、 yuanyuan shi、anima anandkumar。 0.51
CEM-GD: Cross- CEM-GD:クロス- 0.65
entropy method with gradient descent planner for model-based reinforcement learning, 2021b. モデルベース強化学習のための勾配降下プランナーを用いたエントロピー法, 2021b 0.72
Jing Jiang, Jie Lu, Guangquan Zhang, and Guodong Long. チャン・ジアン、ジー・ル、グアンクァン・ジン、グオドン・ロング。 0.39
Optimal cloud resource auto-scaling for web applications. Webアプリケーションのための最適なクラウドリソース自動スケーリング。 0.64
In 2013 13th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, pages 58–65. 2013年の第13回IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, page 58–65。 0.77
IEEE, 2013. 2013年、IEEE。 0.59
Ramtin Keramati, Christoph Dann, Alex Tamkin, and Emma Brunskill. ラムティン・ケラマティ、クリストフ・ダン、アレックス・タムキン、エマ・ブランスキル。 0.46
Being optimistic to be conservative: Quickly learning a CVaR policy. 保守的であることを楽観視する:CVaRポリシーを素早く学ぶ。 0.67
Proceedings of the AAAI Conference on Artificial Intelligence, 34:4436–4443, 04 2020. AAAI Conference on Artificial Intelligence, 34:4436–4443, 04 2020 に参加。 0.46
Leslie Kish. レスリー・キッシュ。 0.52
Survey Sampling. New York: John Wiley and Sons, Inc., 1965. サンプル調査。 ニューヨーク: John Wiley and Sons, Inc.、1965年。 0.75
Tom Leinster. Effective sample size, 2014. トム・レインスター 2014年、実物大。 0.55
Ingrid Lunden. イングリッド・ランデン 0.40
Intel confirms acquisition of AI-based workload optimization startup granulate, intelがaiベースのワークロード最適化スタートアップgrainateを買収 0.62
reportedly for up to $650M, 2022. 噂では最大6億5000万ドル、2022年。 0.44
Anirudha Majumdar, Sumeet Singh, Ajay Mandlekar, and Marco Pavone. Anirudha Majumdar、Sumeet Singh、Ajay Mandlekar、Marco Pavone。 0.35
Risk-sensitive inverse reinforcement learning via coherent risk models. コヒーレントリスクモデルによるリスク感応的逆強化学習 0.81
Robotics: Science and Systems, 07 2017. Robotics: Science and Systems, 07 2017年。 0.86
doi: 10.15607/RSS.2017.XI II.069. 10.15607/RSS.2017.XI II.069。 0.38
Shie Mannor, Reuven Rubinstein, and Yohai Gat. Shie Mannor、Reuven Rubinstein、Yohai Gat。 0.34
The cross entropy method for fast policy search. 高速ポリシー探索のためのクロスエントロピー法 0.61
Proceedings, Twentieth International Conference on Machine Learning, 2, 07 2003. 第20回機械学習国際会議、2003年2月7日。 0.64
Cosmin Paduraru, Daniel J. Mankowitz, Gabriel Dulac-Arnold, Jerry Li, Nir Levine, Sven Gowal, and Todd Hester. Cosmin Paduraru、Daniel J. Mankowitz、Gabriel Dulac-Arnold、Jerry Li、Nir Levine、Sven Gowal、Todd Hester。
訳抜け防止モード: Cosmin Paduraru, Daniel J. Mankowitz, Gabriel Dulac - Arnold ジェリー・リー、ニル・レヴィン、スヴェン・ゴーワル、トッド・ヘスター。
0.73
Challenges of real-world reinforcement learning: Definitions, benchmarks and analysis. 実世界の強化学習の課題:定義、ベンチマーク、分析。 0.65
Machine Learning Journal, 2021. 英語) machine learning journal, 2021年。 0.65
Lerrel Pinto, James Davidson, Rahul Sukthankar, and Abhinav Gupta. lerrel pinto、james davidson、rahul sukthankar、abhinav gupta。 0.47
Robust adversarial reinforcement learning. In Proceedings of the 34th International Conference on Machine Learning - Volume 70, ICML’17, page 2817–2826. 強固な敵強化学習。 第34回機械学習国際会議紀要-第70巻、icml’17ページ2817-2826。
訳抜け防止モード: 強固な敵強化学習。 第34回機械学習国際会議報告 - 巻70, ICML'17 2817-2826頁。
0.50
JMLR.org, 2017. JMLR.org、2017年。 0.65
L.A. Prashanth and M. Ghavamzadeh. L.A. PrashanthとM. Ghavamzadeh。 0.35
Actor-critic algorithms for risk-sensitive MDPs. リスクに敏感なMDPのためのアクタークリティカルアルゴリズム 0.53
In Proceedings of Advances in Neural Information Processing Systems 26, pages 252–260, 2013. 手続き中 ニューラル・インフォメーション・プロセッシング・システム26ページ252-260, 2013 0.51
L.A. Prashanth and M. Ghavamzadeh. L.A. PrashanthとM. Ghavamzadeh。 0.35
Variance-constrained actor-critic algorithms for discounted 割引用可変制約アクター批判アルゴリズム 0.60
and average reward MDPs. Machine Learning Journal, 105(3):367–417, 2016. 平均報酬はMDP。 機械学習ジャーナル 105(3):367–417, 2016 0.72
Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, R. Wang, Bo An, Svetlana Obraztsova, and Zinovi Rabinovich. Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, R. Wang, Bo An, Svetlana Obraztsova, Zinovi Rabinovich。
訳抜け防止モード: ウェイ・キウ、シンラン・ワン、ランシェン・ユ、xu he、 r. wang, bo an, svetlana obraztsova, zinovi rabinovich。
0.64
RMIX: Learning risk-sensitive policies for cooperative reinforcement learning agents. RMIX:協調強化学習エージェントのリスク感応政策の学習 0.79
ArXiv, abs/2102.08159, 2021. ArXiv, abs/2102.08159, 2021。 0.35
Aravind Rajeswaran, Sarvjeet Ghotra, Balaraman Ravindran, and Sergey Levine. Aravind Rajeswaran, Sarvjeet Ghotra, Balaraman Ravindran, Sergey Levine 0.33
Epopt: Learning robust neural network policies using model ensembles. Epopt: 学習 モデルアンサンブルを用いた 堅牢なニューラルネットワークポリシー 0.77
ICLR, 2017. ICLR、2017年。 0.88
Makoto Sato, Hajime Kimura, and Syumpei Kobayashi. 佐藤誠、木村一、小林春平。 0.46
TD algorithm for the variance of return and mean-variance reinforcement learning. 回帰と平均分散強化学習の分散のためのTDアルゴリズム 0.70
Transactions of The Japanese Society for Artificial Intelligence, 16:353–362, 2001. 日本人工知能学会, 16:353–362, 2001年。 0.61
Sumeet Singh, Jonathan Lacotte, Anirudha Majumdar, and Marco Pavone. Sumeet Singh、Jonathan Lacotte、Anirudha Majumdar、Marco Pavone。 0.31
Risk-sensitive inverse reinforcement learning via semi- and non-parametric methods. 半・非パラメトリック手法によるリスク感応的逆強化学習 0.70
The International Journal of Robotics Research, 37, 04 2018. the international journal of robotics research, 37, 04 2018を参照。 0.80
doi: 10.1177/027836491877 2017. doi: 10.1177/027836491877 2017。 0.48
Aviv Tamar, Yinlam Chow, Mohammad Ghavamzadeh, and Shie Mannor. Aviv Tamar、Yinlam Chow、Mohammad Ghavamzadeh、Shie Mannor。 0.33
Policy gradient for coherent コヒーレントに対する政策勾配 0.84
risk measures. NIPS, 2015a. リスク対策だ 2015年、デビュー。 0.55
Aviv Tamar, Yonatan Glassner, and Shie Mannor. アビブ・タマー、ヨナタン・グラスナー、シー・マナー。 0.37
Optimizing the CVaR via sampling. CVaRのサンプリングによる最適化。 0.71
AAAI’15, page aaai'15ページ。 0.62
2993–2999, 2015b. 2993-2999, 2015年。 0.53
Yichuan Tang, Jian Zhang, and Ruslan Salakhutdinov. yichuan tang、jian zhang、ruslan salakhutdinov。 0.46
Worst cases policy gradients. 最悪の場合、政策の勾配。 0.53
In CoRL, 2019. 2019年、CoRL。 0.70
11 11 0.43
英語(論文から抽出)日本語訳スコア
Chen Tessler, Yuval Shpigelman, Gal Dalal, Amit Mandelbaum, Doron Haritan Kazakov, Benjamin Fuhrer, Gal Chechik, and Shie Mannor. Chen Tessler, Yuval Shpigelman, Gal Dalal, Amit Mandelbaum, Doron Haritan Kazakov, Benjamin Fuhrer, Gal Chechik, Shie Mannor 0.37
Reinforcement learning for datacenter congestion control. データセンター混雑制御のための強化学習 0.77
SIGMETRICS Perform. SIGMETRICS所属。 0.61
Eval. Rev. , 49(2):43–46, jan 2022. エバル レヴ 49(2):43-46, jan 2022。 0.53
ISSN 0163-5999. ISSN 0163-5999。 0.36
doi: 10.1145/3512798. doi: 10.1145/3512798。 0.64
3512815. URL https://doi.org/10.1 145/3512798.3512815. 3512815. URL https://doi.org/10.1 145/3512798.3512815 0.31
J. R. R. Tolkien. J・R・R・トールキン 0.40
The Lord of the Rings: The Fellowship of the Ring. The Lord of the Rings: The Fellowship of the Ring。 0.41
George Allen and Unwin, 1954. 1954年、ジョージ・アレンとアンウィン。 0.64
Nithia Vijayan and L. A. Prashanth. Nithia VijayanとL.A. Prashanth。 0.44
Likelihood ratio-based policy gradient methods for distorted risk 確率比に基づく歪んだリスクに対する政策勾配法 0.72
measures: A non-asymptotic analysis. ArXiv, abs/2107.04422, 2021. 尺度:非漸近分析。 ArXiv, abs/2107.04422, 2021 0.36
T. Xie, B. Liu, Y. Xu, M. Ghavamzadeh, Y. Chow, D. Lyu, and D. Yoon. T.Xie, B. Liu, Y. Xu, M. Ghavamzadeh, Y. Chow, D. Lyu, D. Yoon 0.47
A block coordinate ascent algorithm for mean-variance optimization. 平均分散最適化のためのブロック座標昇華アルゴリズム 0.82
In Proceedings of Advances in Neural Information Processing Systems 232, pages 1073–1083, 2018. ニューラル・インフォメーション・プロセッシング・システム232, pp. 1073–1083, 2018。 0.44
Pan Xu, Felicia Gao, and Quanquan Gu. Pan Xu、Felicia Gao、Quanquan Gu。 0.32
An improved convergence analysis of stochastic variance- 確率分散の収束解析の改良- 0.79
reduced policy gradient. In Uncertainty in Artificial Intelligence, pages 541–551. 政策勾配の低下。 In Uncertainty in Artificial Intelligence, page 541–551。 0.59
PMLR, 2020. PMLR、2020年。 0.88
12 12 0.42
英語(論文から抽出)日本語訳スコア
Contents 1 Introduction 2 Problem Formulation 内容 はじめに 2 問題定式化 0.58
3 The Cross-entropy Soft-Risk Algorithm 3 クロスエントロピーソフトリスクアルゴリズム 0.33
4 Analysis 5 Experiments 4つの分析 5 実験 0.72
6 Summary and Future Work 6 概要と今後の課題 0.75
A Blindness to Success: Proof of Theorem 1 成功への盲目:定理1の証明 0.69
B Variance Reduction: Proof of Proposition 1 B 変数の削減:提案1の証明 0.71
C Gradient Estimation Bias and CeSoR Convergence C勾配推定バイアスとCeSoR収束 0.70
D The Cross Entropy Module: Extended Discussion D クロスエントロピーモジュール: 拡張された議論 0.86
E The Guarded Maze: Extended Discussion E the Guarded Maze: 拡張された議論 0.70
F The Driving Game: Extended Discussion F the Driving Game: 拡張された議論 0.78
G The Computational Resource Allocation Problem: Extended Discussion G 計算資源配分問題:拡張議論 0.66
1 3 4 5 7 9 1 3 4 5 7 9 0.43
14 15 15 17 14 15 15 17 0.43
21 25 26 13 21 25 26 13 0.53
英語(論文から抽出)日本語訳スコア
A Blindness to Success: Proof of Theorem 1 成功への盲目:定理1の証明 0.69
P(cid:16) (cid:17) ≤ e P(第16話) (cid:17)≤ e 0.50
Theorem 1 considers the probabilistic event of a global blindness to success over n consecutive training steps. 定理1は、nつの連続した訓練ステップで成功するためのグローバルブラインドネスの確率的事象を考察する。 0.53
We begin with a local blindness in a single training step. 1つのトレーニングステップで、ローカルな盲目から始めます。 0.71
Lemma 1 (Local blindness to success). Lemma 1 (Local blindness to success) の略。 0.81
Let a risk level α ∈ (0, 1) and a CVaR-PG training step m ≥ 1. リスクレベル α ∈ (0, 1) とCVaR-PG トレーニングステップ m ≥ 1 とする。 0.78
Let β ∈ (α, 1). β ∈ (α, 1) とする。 0.84
Then, β < ˆqα({R(τm,i)}N qπm そしたら β < >qα({R(τm,i)}N qπm 0.73
− N (β−α)2 2β(1−β) ≤ e−2N (β−α)2 −N(β−α)2 2β(1−β) ≤ e−2n(β−α)2 0.61
i=1) Denote Ri = R(τm,i), χq i=1。 ri = r(τm,i) と書く。 0.64
Proof. We are interested in P(A), where A = 証明。 我々は、A = P(A) に興味がある。 0.70
(cid:16) the percent of high-return trajectories by nq =(cid:80)N (cid:111) (cid:110) effding, 1994] for n∗ =(cid:80)N (cid:16) n∗ =(cid:80)N (cid:111) (cid:110) effding, 1994] for n∗ =(cid:80)N 0.40
(cid:111) q | |{i | Ri≤q}| β < ˆqα({Ri}) ⇔ n∗ ≥ 1 − α, i.e., A = (n∗ ≥ 1 − α). (cid:111) q | |{i | Ri≤q}| β < .qα({Ri}) . n∗ ≥ 1 − α, すなわち A = (n∗ ≥ 1 − α)。 0.97
i = 111Ri>q, and χi = χ i = 111ri>q, および >i = である。 0.71
q | |{i | Ri>q}| q | |{i | Ri>q}| 0.85
β < ˆqα({R(τm,i)}N qπm (cid:110) β < >qα({R(τm,i)}N qπm (cid:110) 0.41
min have qπ Since P(0 ≤ χi ≤ 1) = 1, E [χi] = 1 − β and V ar(χi) = β(1 − β), by Hoeffding inequality [Ho- min は qπ を持つ、なぜなら P(0 ≤ , i ≤ 1) = 1, E[,i] = 1 − β と V ar(,i) = β(1 − β) であるからである。 0.81
. Note that χi ∼ Bernoulli(1−β). . 詳しくはベルヌーイ(1−β)を参照。 0.51
Also denote i=1 χq i=1) = < 1 − α , we i=1 を i=1) = < 1 − α と表記する。 0.74
i /N and n∗ = nqπ q | 1 i /N および n∗ = nqπ q | 1 0.88
. Since ˆqα({Ri}N i < 1 − α i=1 χq . qα({ri}n i < 1 − α i=1 ]q なので 0.57
(cid:80)N ≥ α (cid:80)n ≥ α 0.41
= min = min qπm β i =民 =民 qπm β 0.56
(cid:110) (cid:111) (第110回) (出典:111) 0.65
(cid:17) i=1) (cid:17) i=1。 0.51
N N N . β i=1 χi/N, N N N . β i=1 は i/n である。 0.41
P(A) = P(n∗ ≥ 1 − α) = P(n∗ − E [n∗] ≥ β − α) ≤ e p(a) = p(n∗ ≥ 1 − α) = p(n∗ − e [n∗] ≥ β − α) ≤ e である。 0.95
2(cid:80) − N 2 (β−α)2 2(cid:80) − N 2 (β−α)2 0.44
i β(1−β) = e i β(1−β) = e 0.47
− N (β−α)2 2β(1−β) . n (β−α)2 2β(1−β) である。 0.66
β Note that Lemma 1 does not depend on a tail-barrier: it simply implies that since a CVaR-PG algorithm focuses on the worst α trajectories in every batch, we do not expect trajectories with high returns R(τm,i) > qπm to be fed to the optimizer. β これは単にcvar-pgアルゴリズムが各バッチで最悪のα軌道に焦点を当てているため、高リターン r(τm,i) > qπm の軌道がオプティマイザに供給されることは期待できないことを意味する。
訳抜け防止モード: β 注意:Lemma 1 はテール-バリアに依存しない。 ですからそれは CVaR - PGアルゴリズムは、バッチ毎に最悪のα軌道にフォーカスする。 高反射率 R(τm, i ) > qπm の軌道はオプティマイザに供給されることは期待できない。
0.55
Still, in general, even if high-return trajectories are ignored, the CVaR-PG can learn to avoid low-return trajectories with R(τm,i) < qπm β . しかし、一般的には、高逆軌道が無視されたとしても、CVaR-PGはR(τm,i) < qπm β で低逆軌道を避けることができる。
訳抜け防止モード: それでも、一般的には、高い戻り軌道は無視される。 CVaR - PGは学習できる R(τm, i ) < qπm β の低軌道を避ける。
0.70
The tail barrier prevents this learning, since there are no returns strictly lower than qπm – all the tail identically equals qπm β . テールバリアは、qπmよりも厳密に低いリターンが存在しないため、この学習を妨げる。
訳抜け防止モード: 尾のバリアは学習を妨げます qπm よりも厳密に低いリターンはなく、全ての尾は qπm β に等しい。
0.65
Since there are no worse trajectories to learn from, and better trajectories are ignored, this brings the training to a deadlock, as stated by Theorem 1. そこから学ぶべき悪い軌跡はなく、より良い軌跡が無視されるため、Theorem 1で述べられているように、この訓練はデッドロックに繋がる。 0.73
Proof of Theorem 1 (stated in Section 4.1). 定理1の証明(第4条第1項)。 0.66
Denote by Rm = {R(τm,i)}N i=1 the batch of returns on step m. Rm = {R(τm,i)}N i=1 はステップ m 上の戻り値のバッチである。 0.86
We are interested in the probability of the event that there is no global blindness: ¬Bm0,n πm0 (Definition 2). 我々は、大域的な盲点が存在しないという事象の確率に興味を持っている: >Bm0,n πm0 (Definition 2)。 0.62
Define the event of blindness β < ˆqα(Rm) πm = πm0 ∧ ˆqα(Rm) ≤ q at step m, along with an unchanged policy: Am = 失明の事象を、ステップ m において β < sqα(rm) πm = πm0 s sqα(rm) ≤ q と定義する。
訳抜け防止モード: 盲点 β < πm = πm0 > πqα(Rm ) ≤ q の事象をステップ m で定義する。 変更のないポリシー: Am =
0.77
. Note that (cid:17) (cid:16) . 注意 (出典:17)(出典:16) 0.49
α,β = (cid:17) α,β = (cid:17) 0.41
β πm0 β (cid:84)m0+n−1 β πm0 β (出典:84)m0+n−1 0.41
m=m0 (cid:16)∃m0 ≤ m < m0 + n : q (cid:32)m0+n−1(cid:92) m=m0 (cid:16)\m0 ≤ m < m0 + n : q (cid:32)m0+n−1(cid:92) 0.29
Am ⊆ Bn, hence P(¬Bn) ≤ 1 − P 略称はBn。 p(\bn) ≤ 1 − p である。 0.52
(cid:33) Am (cid:33) アム 0.42
= 1 − m0+n−1(cid:89) = 1 − m0+n−1(cid:89) 0.31
P (Am|Am0, ..., Am−1) . P (Am|Am0, ..., Am−1) である。 0.66
m=m0 m=m0 2β(1−β) , hence P(¬Bn) ≤ 1 − (1 − δ)n ≤ 1 − (1 − nδ) = nδ. m=m0 m=m0 2β(1−β) なので、P(nBn) ≤ 1 − (1 − δ)n ≤ 1 − (1 − nδ) = nδ となる。 0.43
Thus, to complete the proof, we show below that P (Am|Am0, ..., Am−1) ≥ 1 − δ, where δ = − N (β−α)2 e < ˆqα(Rm0)) ≤ δ. したがって、証明を完成させるために、P (Am|Am0, ..., Am−1) ≥ 1 − δ, ここで δ = − N (β−α)2 e < shqα(Rm0)) ≤ δ が成立する。 0.84
For m = m0, we have immediately πm = πm0, and from Lemma 1 P(q For m0 + 1 ≤ m ≤ m0 + n − 1, assume that Am0, ..., Am−1 hold. m = m0 の場合、直ちに πm = πm0 となり、Lemma 1 P(q for m0 + 1 ≤ m ≤ m0 + n − 1) から Am0, ..., Am−1 が成り立つと仮定する。 0.88
In particular, ˆqα(Rm−1) ≤ , πm−1 = πm0 and πm−1 has a β-tail barrier. 特に、 πm−1 = πm0 と πm−1 は β-テール障壁を持つ。 0.76
Now consider the m − 1 training batch: for πm0 q β every trajectory 1 ≤ i ≤ N, if Rm−1,i > ˆqα(Rm−1), then 111Rm−1,i≤ˆqα(Rm−1) = 0; otherwise, for some β(cid:48) ≤ β, and by the barrier property Rm−1,i ≤ ˆqα(Rm−1) ≤ q and thus Rm−1,i − ˆqα(Rm−1) = 0. ここで、m − 1 の訓練バッチを考える: πm0 q β に対して、すべての軌道 1 ≤ i ≤ n に対して、rm−1,i > sqα(rm−1) が、ある β(cid:48) ≤ β に対して rm−1,i ≤ sqα(rm−1) ≤ q とすると、rm−1,i − sqα(rm−1) = 0 となる。 0.81
Hence, the gradient in Equation (3) is 0, the πm0 Rm−1,i = q β policy update vanishes, and we receive πm = πm−1 = πm0. したがって、方程式 (3) の勾配は 0 であり、πm0 Rm−1,i = q β ポリシーの更新は消え、πm = πm−1 = πm0 を得る。 0.74
Then again, according to Lemma 1 (and since Rm and Rm0 are drawn from the same distribution corresponding to πm = πm0), we have P(q 再び、Lemma 1 によれば(そして Rm と Rm0 は πm = πm0 に対応する同じ分布から引き出されるので)、P(q) を持つ。 0.82
β < ˆqα(Rm0 )) ≤ δ, as required. β < >qα(Rm0 )) ≤ δ が要求される。 0.78
β < ˆqα(Rm)) = P(q πm0 β < sqα(rm)) = p(q πm0 である。 0.70
, that is, Rm−1,i = q すなわち Rm−1,i = q である。 0.90
πm0 β πm0 β πm0 β πm0 β 0.35
πm0 β(cid:48) πm0 β(cid:48) 0.35
πm0 14 πm0 14 0.36
英語(論文から抽出)日本語訳スコア
Note that the factor n may become quite negligible when the barrier is wider than α: if n = 106, α = 0.05, β = 0.2, N = 400, for example, we still receive P(¬Bn) < 10−6. 例えば、n = 106, α = 0.05, β = 0.2, N = 400 とすると、この障壁が α よりも広くなると、係数 n はかなり無視できる。
訳抜け防止モード: 障壁が α よりも広いとき、n = 106 であれば、係数 n はかなり無視できるかもしれないことに注意。 α = 0.05, β = 0.2, N = 400, 例えば、我々はまだ P(\Bn ) < 10−6 である。
0.76
Indeed, the blindness occurs with significantly smaller barriers than the β = 0.9 demonstrated in the Guarded Maze in Appendix E.2. 実際、盲目はappendix e.2のガードされた迷路で示されるβ = 0.9よりもかなり小さい障壁で起こる。 0.69
Note that the momentum term of the Adam algorithm [Diederik P. Kingma, 2014], while preventing the policy update from completely vanishing, was empirically insufficient to overcome the barrier in the Guarded Maze. アダム・アルゴリズム(Diederik P. Kingma, 2014)のモーメント項は、ポリシー更新が完全に消滅することを防ぐ一方で、ガードされた迷路の障壁を克服するには経験的に不十分であったことに注意。 0.56
This should not come as a surprise, since the momentum comes from previous gradients that encouraged the strategies of the barrier and brought them into the tail in the first place. なぜなら、モーメントは、障壁の戦略を奨励し、最初にそれらを尾部に持ち込んだ以前の勾配から来ているからである。
訳抜け防止モード: 運動量は以前の勾配から来ているので、これは驚くことではありません。 バリアの戦略を奨励し、そもそもそれを尻尾に持ち込んだ。
0.59
(cid:0){τi, Ci}N (cid:0){τi, Ci}N 0.45
B Variance Reduction: Proof of Proposition 1 (cid:80)N Proof. B 変数低減: 命題 1 (cid:80)N の証明。 0.65
Define H(τ, C) = α−1111R(τ )≤qα (R(τ ) − qα)∇θ t log πθ(at; st), such that the CVaR PG can be written as ∇θ ˆJα i=1 w(τ, Ci; φ)H(τi, Ci), where w(τ, C; φ) is the IS weighting that accounts for the modified context distribution φ (cid:54)= φ0. h(τ, c) = α−1111r(τ; φ)ψqα (r(τ ) − qα) θ t log πθ(at; st) と定義し、cvar pg は w(τ, c; φ)h(τi, ci) と書けるので、w(τ, c; φ) は修正された文脈分布 φ (cid:54)= φ0 を満たす重み付けである。
訳抜け防止モード: H(τ, C ) = α−1111R(τ ) ≤qα ( R(τ ) − qα) θ t log πθ(at ; st ) CVaR PG は CVaR PG = 1 w(τ,) と書くことができる。 Ci ; φ)H(τi, Ci ) ここで w(τ, C ; φ ) はIS重み付けである。 修正された文脈分布 φ ( cid:54) = φ0 について記述する。
0.93
Since ˆqα = qα(R), for any φ, ∇θ ˆJα is an unbiased gradient estimator: E Ci∼Dφ,τi∼P ∇θJα (πθ), and its variance over N i.i.d samples is VarCi∼Dφ,τi∼P N VarC∼Dφ,τ∼P 1 almost surely, hence したがって、任意のφ に対して sqα = qα(R) が非偏微分勾配推定器(英語版)であるので、 sqα は E の偏微分勾配推定器(英語版)であり、その N 上の分散は VarCi-Dφ,τi-P N VarCi-Dφ,τi-P 1 であり、従ってほぼ確実である。
訳抜け防止モード: 任意の φ に対して sqα = qα(R) となるから、 sθ は非偏微分勾配推定器である: E Ci,Dφ, τi,P sθJα ( πθ )。 Ni.d サンプルに対するその分散は VarCi.Dφ, τi.P N VarCi.Dφ である。 τ-P 1 はほぼ確実である。
0.58
[∇θ ˆJα (τ, C; φ, πθ)]. は (τ, c; φ, πθ) である。 0.62
Since ˆqα = qα(R), we have 111R(τ )≤ˆqα = 111R(τ )≤qα = 1 111R(τ)≤\qα = 111R(τ)≤qα = 1 となる。 0.76
(cid:0){τi, Ci}N (cid:0){τi, Ci}N (cid:0){τi, Ci}N (cid:0){τi, Ci}N 0.45
i=1; φ, πθ i=1; φ, πθ i=1; φ, πθ i=1; φ, πθ 0.43
(cid:1)] = (cid:1)] = (cid:1)] = (cid:1)] = 0.50
(cid:1) = 1 (cid:1) = 1 0.44
[∇θ ˆJα [∇θ ˆJα Jα (複数形 Jαs) 0.42
i=1; φ, πθ i=1; φ, πθ 0.44
πθ Ci πθ Ci πθ Ci πθ Ci 0.42
πθ C N (cid:80) πθ C N (cid:80) 0.41
w(τ, C; φ) = w(τ, C; φ) = 0.42
P πθ C (τ )Dφ0(C) P πθ C (τ )Dφ(C) P πθ C (τ )Dφ0(C) P πθ C (τ )Dφ(C) 0.97
= P πθ C (τ )Dφ0 (C) = P πθ C (τ )Dφ0 (C) 0.44
1 α 1R(τ )≤qα P πθ 1 α 1R(τ )≤qα P πθ 0.43
C (τ )Dφ0(C) C(τ)Dφ0(C) 0.48
= α. Denoting g := ∇θJα (πθ) and ED[·] := E = α. g := sθjα (πθ) と ed[·] := e を表記する 0.62
C∼D,τ∼P πθ C チャド、チャップ。 πθ C 0.31
[·], we receive: [·]を受け取ります。 0.38
VarDφ[∇θ ˆJα (τ, C; φ, πθ)] =EDφ[w(τ, C; φ)2H(τ, C)2] − g2 [w(τ, C; φ)H(τ, C)2] − g2 =EDφ0 =α · EDφ0 ≤α · (EDφ0 =α · VarDφ0 which completes the proof. vard φ[\θ ]jα (τ, c; φ, πθ)] =ed φ[w(τ, c; φ)2h(τ, c)2] − g2 [w(τ, c; φ)h(τ, c)2] − g2 =ed φ0 =α · ed φ0 ≤α · (edφ0 =α · vard φ0) 証明を完遂する。 0.84
Note that if ˆqα (cid:54)= qα(R), the term 111R≤qα in the denominator may vanish and the importance sampling factor w(τ, C; φ) may become unbounded. 注意すべき点として、この分母における 111R≤qα という用語は、 sqα (cid:54)= qα(R) が消滅し、重要サンプリング係数 w(τ, C; φ) が非有界となることがある。 0.53
To overcome this issue, one may constrain the distribution parameter update to ensure Dφ0(C)/Dφ(C) < ∞, or clip the IS weights directly as specified in Section 5. この問題を克服するために、分布パラメータのアップデートをdφ0(c)/dφ(c) < ∞ に制限するか、セクション5で指定されたようにis重みを直接クリップする。 0.72
[H(τ, C)2] − g2 [H(τ, C)2] − g2) [∇θ ˆJα (τ, C; φ0, πθ)] = α · Varτ∼P g2 [h(τ, c)2] − g2 [h(τ, c)2] − g2 [\θ \jα (τ, c; φ0, πθ)] = α · varτ\p である。 0.82
[∇θ ˆJα(τ ; πθ)], [ πθ >Jα(τ ; πθ)] 0.37
πθ φ0 C Gradient Estimation Bias and CeSoR Convergence πθ φ0 C勾配推定バイアスとCeSoR収束 0.53
The gradient estimator of Equation (3) is biased due to the biasedness of the empirical quantile. 方程式(3)の勾配推定器は、経験的量子の偏りによりバイアスされる。 0.75
However, Tamar et al [2015b] show that the gradient estimator is still consistent, and bound its bias by O(N−1/2). しかし、tamar et al [2015b] は勾配推定器が依然として一貫しており、そのバイアスを o(n−1/2) で縛ることを示した。 0.60
Lemma 2 below proves that a similar result holds for CeSoR – despite the CEM and the risk scheduling. 下記のLemma 2は、CEMとリスクスケジューリングにもかかわらず、CeSoRに同様の結果をもたらすことを証明している。 0.59
Given Lemma 2, CeSoR’s convergence is a direct application of Theorem 5 in Tamar et al [2015b], as stated below. Lemma 2 を考えると、CeSoR の収束は後述の Tamar et al [2015b] における Theorem 5 の直接的な応用である。 0.88
The soft-risk scheduling α(cid:48) introduces additional transient bias to the CVaR gradient estimate when α(cid:48) > α, but this bias vanishes in the last steady-state 1 − ρ steps when α(cid:48) = α; hence, we can safely assume consistency of CeSoR’s gradient estimate, and focus our asymptotic convergence analysis on the steady-state phase. ソフトリスクスケジューリングα(cid:48)は、α(cid:48) > α のとき、CVaR勾配推定にさらに過渡バイアスを導入するが、このバイアスは α(cid:48) = α のとき、最後の定常状態 1 − ρ ステップで消える。
訳抜け防止モード: ソフトリスクスケジューリングα(cid:48 )は、α(cid:48 ) > α のとき、cvar勾配推定にさらなる過渡バイアスをもたらす。 しかし、このバイアスは α(cid:48 ) = α のとき、最後の定常な 1 − ρ ステップで消失する。 したがって、cesorの勾配推定の一貫性を安全に想定できる。 そして、漸近収束解析を定常状態相に集中する。
0.69
Formally, in terms of Section 2, assume that the update step includes a (cid:96)p projection Γ to a compact set with a smooth boundary: θm+1 = Γ(θm + ηm∇θ ˆJα); and that the learning rate ηm satisfies 正式には、第2節において、更新ステップが滑らかな境界を持つコンパクト集合への(cid:96)p 射影 γ を含み、学習率 ηm が満足することを仮定する。 0.58
(cid:104)∇θ ˆJα (cid:104) θjα である。 0.49
(cid:105) − ∇θJα (出典:105)-シュθJα 0.62
(cid:12)(cid:12)(cid :12) < ∞ w.p. 1. (cid:12)(cid:12)(cid :12) < ∞ w.p. 1。 0.37
In addition, (cid:80)∞ m=0 ηm = ∞, (cid:80)∞ また、 (cid:80)∞ m=0 ηm = ∞, (cid:80)∞ 0.42
m < ∞ and(cid:80)∞ m < ∞ および (cid:80)∞ 0.95
denote by K the set of all asymptotically-stabl e equilibria of the ODE ˙θ = Γ(∇θJα(R; πθ)). k {\displaystyle k} で表される ode の漸近的に安定な平衡全体の成す集合は γ(\θjα(r; πθ)) である。 0.59
(cid:12)(cid:12)(cid :12)E (cid:12)(cid:12)(cid :12)E 0.38
m=0 η2 m=0 ηm m=0 η2 m=0ηm 0.28
15 15 0.43
英語(論文から抽出)日本語訳スコア
Theorem 2 (Convergence of CeSoR). 定理2 (cesor のコンバージェンス)。 0.53
Under the smoothness assumptions specified in Appendix C.1, and the projection and learning rate assumptions specified above, the sequence of policy parameters {θm} generated by Algorithm 1 converges almost surely to K. Appendix C.1で定義された滑らかな仮定と上記の予測と学習率の仮定の下で、アルゴリズム1で生成されるポリシーパラメータ {θm} の列は、ほぼ確実にKに収束する。 0.69
Theorem 2 relies on similar assumptions to Tamar et al [2015b], two of them are of particular interest in our context. Theorem 2 は Tamar et al [2015b] と同様の仮定に依存している。
訳抜け防止モード: Theorem 2 は Tamar et al [ 2015b ] と同様の仮定に依存している。 そのうちの2つは 文脈に特に興味があります
0.64
First, the rewards are assumed to be continuous. まず、報酬は連続していると仮定される。 0.66
Second, in the gradient estimator, the baseline is assumed to be a consistent estimator of the returns α-quantile. 第2に、勾配推定器では、ベースラインはリターン α-量子の一貫した推定器であると仮定される。 0.60
Hence, while CeSoR is compatible with any CVaR-PG method, the current derivation of theoretical convergence guarantees only holds for PG methods with a consistent gradient estimate. したがって、CeSoRは任意のCVaR-PG法と互換性があるが、理論収束保証の現在の導出は、一貫した勾配推定を持つPG法に対してのみ成り立つ。 0.63
C.1 Gradient Estimation Bias C.1 勾配推定バイアス 0.50
The gradient estimator of the standard CVaR PG may be inconsistent and unboundedly-biased, unless the return baseline is a consistent estimator of the α-quantile of the returns [Tamar et al , 2015b]. 標準CVaR PGの勾配推定器は、リターンベースラインがリターンのα-クアンタイルの一貫した推定器でない限り、不整合かつ非有界バイアスとなる可能性がある[Tamar et al , 2015b]。 0.67
Thus, we rely on the empirical quantile baseline ˆqα used in Equation (3), which is a consistent (though biased) estimator of the true quantile. したがって、Equation (3) で用いられる経験的量子化基底線 .qα は真の量子化の一貫性(偏りはあるものの)推定器である。 0.70
Given certain smoothness assumptions, Tamar et al [2015b] bound the resulted bias of the gradient estimator E Lemma 2 guarantees that under the same assumptions, despite the modified sampling by the CEM, the same bias bounds apply to CeSoR. ある滑らかな仮定が与えられたとき、Tamar et al [2015b] は勾配推定器 E Lemma 2 の結果として得られたバイアスを束縛し、CEM による修正サンプリングにもかかわらず、同じバイアス境界が CeSoR に適用されることを保証する。 0.69
We first specify the smoothness assumptions. まず、滑らかさを仮定する。 0.52
Note that Tamar et al [2015b] consider ∇θ log fs|a(s|a, θ) in their calculations (or in their notation: ∇θ log fX|Y (X|Y, θ)). Tamar et al [2015b] は、その計算(あるいはその表記において、)において シュθ log fs|a(s|a, θ) とみなす(あるいは、 シュθ log fX|Y (X|Y, θ))。 0.65
In RL applications, given the action a, the next-state distribution is independent of the policy πθ, and this gradient vanishes. RL の応用において、作用 a が与えられたとき、次の状態分布はポリシー πθ とは独立であり、この勾配は消滅する。
訳抜け防止モード: RL の作用 a が与えられたとき、次の状態分布はポリシー πθ とは独立である。 この勾配は消えます
0.64
We accordingly ignore this term in the calculations, which simplifies the assumptions and the analysis. したがって、仮定や解析を単純化する計算では、この用語を無視する。 0.71
The remaining assumptions mostly consider the smoothness of the rewards, and in particular do not hold in the case of discrete rewards as discussed in Section A. 残りの仮定は、主に報酬の滑らかさを考慮し、特にA節で論じられているような離散的な報酬の場合には当てはまらない。 0.62
(cid:105)−∇θJα (as defined in Equations (2),(3)). (cid:105) - θJα (方程式 (2),(3) で定義される)。 0.80
(cid:104)∇θ ˆJα (cid:104) θjα である。 0.49
Assumption 1 (Smoothness assumptions). 仮定1(滑らかさの仮定)。 0.62
For any policy πθ, the return R is a continuous random variable; and ∇θqα(R; πθ), ∇θJα(πθ) and ∇θ log πθ(a) (for any a) are well defined and bounded. 任意のポリシー πθ に対して、リターン R は連続確率変数であり、任意の a に対して πθ(R; πθ) および πθJα(πθ) および πθ log πθ(a) は well defined and bounded である。 0.84
Lemma 2 (Gradient estimation bias bound). lemma 2 (gradient estimation bias bound) の略。 0.64
In Algorithm 1 with a batch size N, consider a certain step m ≥ ρM, and assume that the underlying PG follows Equation (3) (or Equation (5)). バッチサイズ N のアルゴリズム 1 では、あるステップ m ≥ ρM を考え、基礎となる PG が方程式 (3) (あるいは方程式 (5)) に従うと仮定する。 0.78
Then, under Assumption 1, E では 1 の仮定の下で e 0.73
(cid:105) − ∇θJα = O(N−1/2). (cid:105) − sθjα = o(n−1/2)。 0.61
(cid:104)∇θ ˆJα (cid:104) θjα である。 0.49
Proof. We follow the steps of the proof of Theorem 4 in Tamar et al [2015b] with the following modifications. 証明。 我々は、次の修正を加えて、Tamal et al [2015b] における Theorem 4 の証明のステップに従う。 0.69
First, we take the gradient expectations with respect to the CE sampling distribution Dφ rather than the original distribution Dφ0. まず、元の分布 Dφ0 ではなく、CE サンプリング分布 Dφ に対する勾配期待値をとる。 0.74
Second, the empirical quantile ˆqα is calculated in Algorithm 1 using a reduced sample size No = (cid:98)νN(cid:99) < N. Note that the estimator ˆqα relies on samples drawn from Dφ0, hence is not otherwise affected by the CEM. 第2に, アルゴリズム1では, 減算標本サイズno = (cid:98)νn(cid:99) < n を用いて, 経験的分位数qα が計算される。
訳抜け防止モード: 第二に、経験的量子化(英語版)は、No = ( cid:98)νN(cid:99 ) < N を用いてアルゴリズム1で計算される。 推定子は Dφ0 から引き出されたサンプルに依存するため、CEM の影響を受けない。
0.60
Denote by Dφi the distribution from which was drawn Ci, i.e., φi = φ0 for i ≤ No and φi = φ for i > No. d φi で表すと、その分布は ci、すなわち i ≤ no の φi = φ0 と i > no の φi = φ である。 0.86
Since m ≥ νN, according to Line 13 in Algorithm 1 we have α(cid:48) = α. m ≥ νN であるため、アルゴリズム 1 のライン 13 によれば α(cid:48) = α となる。 0.81
Denoting by qα the true α-quantile of the returns, we have qα は戻り値の真の α-量子量を意味する。 0.67
Thus, by substituting wi = Dφ0 (Ci) πθ(τi) = Πtπθ(ai,t; si,t), we receive したがって、wi = Dφ0(Ci) πθ(τi) = πθ(ai,t; si,t) を置換することで、我々は受ける。 0.72
Dφi (Ci) and using the notation Eφ0 [·] = EC∼Dφ0 , τ∼P Dφi (Ci) を用いて、Eφ0[·] = EC\Dφ0 , τ\P 0.72
16 (6) [·] and 16 (6) [·]と 0.37
πθ C ∇θJα(R; πθ) = E{φi}N πθ C πθ(R; πθ) = E{φi}N 0.43
i=1 1 αN i=1 である。 1αN 0.36
(cid:35) wi111Ri≤qα (Ri − qα)∇θ log πθ(τi) (cid:35) wi111ri linkedinqα (ri − qα)-θ log πθ(τi) 0.35
(cid:34) N(cid:88) (cid:34) N(第88回) 0.51
i=1 i=1 である。 0.31
英語(論文から抽出)日本語訳スコア
πθ Ci (cid:12)(cid:12)(cid :12) πθ Ci (cid:12)(cid:12)(cid :12) 0.40
= Eφ0 πθ Ci =Eφ0 πθ Ci 0.37
(cid:35) |∇θ log πθ(τi) (111Ri≤ˆqα (Ri − ˆqα) − 111Ri≤qα (Ri − qα))| (cid:35) | θ log πθ(τi) (111Ri≤\qα (Ri − sqα) − 111Ri≤qα (Ri − qα))| 0.37
1 αN Dφ0 (Ci) Dφi(Ci) 1αN Dφ0(Ci) Dφi(Ci) 0.41
(cid:35) |∇θ log πθ(τi) (111Ri≤ˆqα (Ri − ˆqα) − 111Ri≤qα (Ri − qα))| (cid:35) | θ log πθ(τi) (111Ri≤\qα (Ri − sqα) − 111Ri≤qα (Ri − qα))| 0.37
i=1 (cid:35) |∇θ log πθ(τi) ((111Ri≤ˆqα − 111Ri≤qα ) (Ri − ˆqα) + 111Ri≤qα ((Ri − ˆqα) − (Ri − qα))| i=1 である。 (キッド:35) | θ log πθ(τi) (111Ri≤シュクα − 111Ri≤qα ) (Ri − シュクα) + 111Ri≤qα ((Ri − シュクα) − (Ri − qα))| 0.53
(cid:105) − ∇θJα(πθ) (cid:105) − sθjα(πθ) 0.35
(cid:104)∇θ ˆJα({τi}; πθ) (cid:34) N(cid:88) (cid:104) θ({τi}; πθ) (cid:34) n(cid:88) 0.45
(cid:12)(cid:12)(cid :12)ECi∼Dφi , τi∼P ≤ ECi∼Dφi , τi∼P N(cid:88) N(cid:88) N(cid:88) |∇θ log πθ(τi)(111Ri≤ˆqα − 111Ri≤qα ) (Ri − ˆqα)| N(cid:88) (cid:12)(cid:12)(cid :12)ECi-Dφi , τi-P ≤ ECi-Dφi , τi-P N(cid:88) N(cid:88) N(cid:88) | θ log πθ(τi) 111Ri≤\qα − 111Ri≤qα ) (Ri − sqα)| N(cid:88) 0.30
|∇θ log πθ(τi)111Ri≤qα (qα − ˆqα)| πθ(τi)111Ri≤qα (qα − sqα)| 0.39
(cid:34) (cid:34) (cid:34) (出典:34)(出典:34)(出典:34) 0.62
≤ Eφ0 ≤ eφ0 である。 0.38
1 αN 1 αN 1 αN 1αN 1αN 1αN 0.41
i=1 i=1 i=1 である。 i=1 である。 0.31
= Eφ0 (cid:34) =Eφ0 (cid:34) 0.35
i=1 1 αN i=1 である。 1αN 0.36
+ Eφ0 (cid:35) +Eφ0 (cid:35) 0.36
(cid:35) i=1 (cid:35) i=1 である。 0.35
(7) From this point, the proof is mostly identical to Theorem 4 in Tamar et al [2015b]. (7) この点から、この証明はtamer et al [2015b] の定理 4 とほとんど同一である。 0.58
Namely, the first term is o(N−1/2) according to Hong and Liu [2009], given Assumption 1; and since ˆqα is estimated using νN samples, we have |qα − ˆqα| = O((νN )−1/2) = O(N−1/2) in probability (note that ν is constant, e g , ν = 0.2 or ν = 0.5 in the experiments of Section 5). すなわち、第一項は香港とLiu [2009] の仮定 1 に従って o(N−1/2) とされ、かつ sqα は νN のサンプルを用いて推定されるので、確率は |qα − sqα| = O((νN )−1/2) = O(N−1/2) である(節 5 の実験では、ν は定数、e g , ν = 0.2 または ν = 0.5 である)。 0.74
Together, the whole expression is O(N−1/2) as required. 式全体は、必要に応じてO(N−1/2)である。 0.64
D The Cross Entropy Module: Extended Discussion D クロスエントロピーモジュール: 拡張された議論 0.86
The Cross Entropy Method (CEM) has a major role in CeSoR. CEM(Cross Entropy Method)はCeSoRにおいて重要な役割を果たしている。 0.77
The CEM code is implemented and available as an independent module. CEMコードは実装され、独立したモジュールとして利用できる。 0.70
Below we present an analysis of the CEM empirical results over both a dedicated toy problem (which tests the CEM independently of CeSoR) and as part of CeSoR in the benchmarks of Section 5. 以下は、CeSoRとは独立にCEMを試験する)専用玩具問題に対するCEM実験結果と、第5節のベンチマークにおけるCeSoRの一部としての分析である。 0.77
D.1 The CEM Algorithm D.1 CEMアルゴリズム 0.44
For clarity, we first provide the pseudo-code for the general CEM algorithm. 明確にするために、我々はまず一般CEMアルゴリズムの擬似コードを提供する。 0.72
This version repeatedly generates samples from the tail of the distribution Dφ0. このバージョンは、分布 dφ0 のテールから繰り返しサンプルを生成する。 0.80
A similar version [de Boer et al , 2005] would stop once qβ all the recent samples R(xi) ≤ q to estimate the probability of the “rare event” R(X) ≤ q. 類似のバージョン [de Boer et al , 2005] は、最近のサンプル R(xi) ≤ q の全てを qβ で停止させ、「希土類事象」 R(X) ≤ q の確率を推定する。 0.88
(cid:1) ≤ q (as it means that at least βN samples are already beyond q), and use (cid:1) ≤ q(少なくともβnサンプルが既にqを超えていることを意味する) 0.84
(cid:0){R(xi)}N (cid:0){R(xi)}N 0.50
i=1 17 i=1 である。 17 0.37
英語(論文から抽出)日本語訳スコア
Note that unlike CeSoR, Algorithm 2 relies on a constant mapping R(x) and a constant target q. CeSoRとは異なり、アルゴリズム2は定数写像 R(x) と定数対象 q に依存している。 0.72
Our CEM version in CeSoR, as implemented in our code and presented in Algorithm 1, supports a quantile-target α with respect to a return mapping R that varies dynamically with the learning agent. 我々のCeSoRのCEMバージョンは、私たちのコードで実装され、アルゴリズム1で提示されたように、学習エージェントと動的に変化するリターンマッピングRに関して、量子ターゲットαをサポートします。 0.62
Algorithm 2: The Cross Entropy Method for Sampling アルゴリズム2:サンプリングのためのクロスエントロピー法 0.72
1 Input: distribution Dφ0; score function R; target level q; batch size N; update selection rate β. 1入力:分散Dφ0,スコア関数R,目標レベルq,バッチサイズN,更新選択率β。 0.77
2 φ ← φ0 3 while true do // Sample Sample x ∼ DN wi ← Dφ0 (xi)/Dφ(xi) Print x // Update 2 φ > φ03 と true do // サンプル x > DN wi > Dφ0 (xi)/Dφ(xi) 印刷 x // 更新 0.87
(1 ≤ i ≤ N ) (1 ≤ i ≤ N ) 0.42
φ 4 5 6 7 8 φ 4 5 6 7 8 0.43
q(cid:48) ← max(cid:0)q, qβ φ ← argmaxφ(cid:48)(cid:80)N q(cid:48) > max(cid:0)q, qβ φ > argmaxφ(cid:48)(cid:80)N 0.39
(cid:0){R(xi)}N (cid:0){R(xi)}N 0.50
i=1 wi111R(xi)≤q(cid:48) log fφ(cid:48)(xi) i=1 wi111R(xi)≤q(cid:48) log fφ(cid:48)(xi) 0.39
(cid:1)(cid:1) (cid:1)(cid:1) 0.37
i=1 D.2 i=1 である。 D.2 0.45
Sample Distribution The goal of the CEM is to align the sample distribution with the bottom-α percent of the reference distribution. サンプル分布 CEMの目標は、サンプル分布を基準分布の下位αパーセントと整合させることである。 0.79
Note that given a parametric family of distributions Dφ with a limited expressiveness, a perfect alignment is not always possible. 有限表現性を持つ分布 dφ のパラメトリック族が与えられたとき、完全アライメントは必ずしも可能であるとは限らない。 0.62
For example, if the CEM controls the mean of an exponential distribution C ∼ Exp(φ), and the returns decrease with c, then the lower quantiles of the returns correspond to C ≥ qα(C). 例えば、CEM が指数分布 C > Exp(φ) の平均を制御し、返りが c で減少すると、返りの低い量子は C ≥ qα(C) に対応する。 0.65
However, no value of φ could eliminate the lower values C ∈ [0, qα] – but could merely assign more probability density to higher values. しかし、φ の値はより低い値 C ∈ [0, qα] を排除できないが、単により高い値により多くの確率密度を割り当てることはできない。 0.70
Even when the family of distributions is expressive enough, the CEM has to learn the desired sample distribution without any prior knowledge about the meaning of the parameters that it controls. 分布の族が十分に表現できるとしても、CEMは、それが制御するパラメータの意味に関する事前の知識なしで、望ましいサンプル分布を学習しなければならない。 0.71
In particular, it cannot know in advance in which direction each parameter may affect the agent return, what the size of the effect would be, and how it would change during the training. 特に、各パラメータのどの方向がエージェントの戻りに影響を及ぼすか、効果の大きさ、トレーニング中にどのように変化するのかを事前に知ることはできない。 0.70
Formally, the objective of the CEM is often defined as minimization of the KL-divergence between the sample distribution and the desired tail of the reference distribution [Dambreville, 2006]. 正式には、cem の目的はしばしば、サンプル分布と基準分布の所望のテールの間の kl-divergence の最小化として定義される(dambreville, 2006)。 0.76
Indeed, this objective is well-defined even if the expressiveness of Dφ does not allow a perfect alignment. 実際、この目的は dφ の表現性が完全アライメントを許さない場合でもよく定義できる。 0.72
In this section, we focus on the comparison between the mean and the CVaR of the sample distribution and the reference distribution of the returns. 本稿では,サンプル分布の平均値とcvar値の比較と,戻り値の参照分布について述べる。 0.62
Specifically, while both distributions begin with the same mean and CVaR, we hope that the sample mean would align with the reference CVaR as quickly as possible. 具体的には,両分布は平均値とCVaRから始まるが,試料平均値が基準CVaRとできるだけ早く一致することを期待する。 0.71
First, we consider a toy problem with a static reference distribution and no RL environment. まず、静的な参照分布とRL環境のない玩具問題を考える。 0.55
The parametric family of distributions is C ∼ Beta(2φ, 2 − 2φ) (such that E [C] = φ), and the reference distribution corresponds to φ0 = 0.5, which results in the uniform distribution Beta(1, 1) = U (0, 1). 分布のパラメトリック族 (parametric family of distributions) は c (β(2 φ, 2 − 2 φ) (e [c] = φ) であり、基準分布は φ0 = 0.5 に対応し、一様分布 β(1, 1) = u (0, 1) となる。 0.88
We are interested in the bottom α = 10% of the reference distribution, i.e., U (0, 0.1). 我々は基準分布の下位α = 10%、すなわち U (0, 0.1) に興味を持っている。 0.82
We run the CEM for n = 10 steps with N = 1000 samples per step, ν = 20% of them are drawn from the original reference distribution, and update φ using the mean of the lower β = 50% samples. ステップ毎に N = 1000 個のサンプルを持つ n = 10 個のステップに対して CEM を実行し、その中の ν = 20% は元の参照分布から引き出され、下位の β = 50% 個のサンプルの平均を用いて φ を更新する。 0.80
Note that generally in this work, C is the context or configuration of an environment that produces returns; in this toy example, we do not have an RL environment and we simply define R(C) = C. The CV aR10% of C (or equivalently, the mean of U (0, 0.1)) is 0.05. このおもちゃの例では、私たちはrl環境を持っておらず、単に r(c) = c と定義している。 c の cv ar10% (または、同値な u (0, 0.1) の平均は 0.05 である。
訳抜け防止モード: 一般的にこの作業では、Cはリターンを生成する環境のコンテキストまたは構成である。 RL環境はありません そして、単に R(C ) = C と定義するだけです。 あるいは、U (0, 0.1 ) の平均は 0.05 である。
0.67
Note that no value of φ can yield the distribution U (0, 0.1), as the support of the Beta distribution is always (0, 1). φ の値は、ベータ分布のサポートが常に (0, 1) であるため、分布 u (0, 0.1) を得られないことに注意する。 0.84
Yet, as shown in Figure 4, the sample mean converges to the reference CVaR within mere 2 iterations, and remains around this level. しかし、図4に示すように、サンプル平均は2回のイテレーションで参照CVaRに収束し、このレベルに留まる。 0.65
Figure 5 presents the same metrics for the experiments described in Section 5. 図5は、セクション5で説明した実験と同じメトリクスを示します。 0.76
In these cases, the reference returns distribution corresponds to the agent returns under the original environment. この場合、参照戻り値分布は、元の環境下でのエージェント戻り値に対応する。 0.74
Note that this reference returns distributions is dynamic during the training, as it changes with the agent (and in certain benchmarks also with the episode length that increases throughout the training). この参照は、エージェントによって変化するため、トレーニング中に分散を返す(そして、トレーニング全体を通して増加するエピソードの長さを持つ特定のベンチマークでも)。 0.64
Yet, in the Driving Game benchmark, for example, we see that the sample mean reasonably aligns with the reference CVaR throughout most of the training, even as both of them vary. しかし、例えばDriving Gameのベンチマークでは、サンプルはトレーニングのほとんどを通して基準CVaRと合理的に一致している。
訳抜け防止モード: しかし、例えば、driveing gameベンチマークでは、サンプルがトレーニングのほとんどの期間、参照cvarと適度に一致していることがわかります。 両者とも異なっていた。
0.61
18 18 0.43
英語(論文から抽出)日本語訳スコア
Figure 4: The converges of the CE sample mean to the reference CV aR10% in the toy Beta distribution problem. 図4:CEサンプルの収束は、おもちゃのベータ分布問題における基準CV aR10%を意味する。 0.80
(a) Guarded Maze (first 60 iterations) (a)守衛迷路(第60回) 0.65
(b) Driving Game (b)ドライブゲーム 0.74
(c) Servers Allocation (c)サーバの割り当て 0.89
Figure 5: The mean and CVaR metrics of the CE sample distribution and the reference original distribution throughout the training of CeSoR over different benchmarks. 図5: CEサンプル分布の平均値とCVaRメトリクス、およびCeSoRのトレーニング全体を通じて、異なるベンチマーク上での基準元の分布。 0.81
In the Guarded Maze, the sample mean also quickly converges into the reference CVaR. ガードされた迷路では、サンプル平均も参照CVaRに急速に収束する。 0.65
However, once the agent learns to avoid the short path, the CE sampler can no longer control the agent performance at all, and due to the regularizing reference samples, the sample distribution gradually goes back to the original one. しかし、エージェントがショートパスを避けることを学習すると、CEサンプルラはエージェントのパフォーマンスを制御できなくなり、参照サンプルの正規化により、サンプル分布は徐々に元のものに戻る。 0.70
This is a valid behavior, as the agent already learned to avoid the risk, and if for some reason it came back to the risky short path, the CE would simply learn again to focus on the risky configurations of the environment. エージェントがリスクを避けるために既に学んだように、これは有効な振る舞いであり、何らかの理由でリスクの高いショートパスに戻った場合、ceは環境のリスクの高い構成にフォーカスするために再び学習する。 0.69
The Servers Allocation Problem takes the challenge of the CEM to the limit, as the target is α = 1%, the difficulty to the agent arrives in a non-smooth manner as rare and discrete events, and the given family of distributions (Binomial) has limitations in expressing the desired distribution. サーバ割り当て問題は、ターゲットが α = 1% であるため、エージェントが到着する困難さは、希少かつ離散的なイベントとして非スムースな方法であり、与えられた分布の族(二項)は所望の分布を表現するのに制限があるため、cem の課題を限界に当てはめる。 0.71
Specifically, we would like most of the sample episodes to include a peak event, but not more than one; whereas the Binomial distribution is not best-suitable for this. 具体的には、サンプルエピソードのほとんどにピークイベントを含むようにしたいが、一つ以上のものはない。
訳抜け防止モード: 具体的には ピークイベントを含むはずのほとんどのサンプルエピソードは、1つ以上のものはない ; 二項分布は最適ではないが、これに適したものである。
0.71
However, even as the CEM struggles to fit the reference CV aR1% (Figure 5c), CeSoR is still shown to provide beneficial results (Section 5.3, Appendix G). しかし、CEMがCV aR1%(図5c)に適合するのに苦労しているにもかかわらず、CeSoRは有益な結果をもたらすことが示されている(Section 5.3, Appendix G)。 0.65
This demonstrates the robustness of CeSoR to limitations and misspecification of the modeled family of distributions. このことは、CeSoRの、モデル化された分布の族に対する制限と不特定に対する堅牢性を示す。 0.54
D.3 Sample Efficiency D.3 サンプル効率 0.55
An important aspect of the CEM is its increase of sample efficiency (Section 4.2). CEMの重要な側面は、サンプル効率の増大である(Section 4.2)。 0.82
While the results in Section 5 already demonstrate that CeSoR learns better and faster than the standard GCVaR, here we measure the effective sample size directly. 第5節の結果は、CeSoRが標準GCVaRよりも良く、より速く学習できることをすでに示しているが、ここでは、有効なサンプルサイズを直接測定する。 0.67
While PG always uses the entire batch, and GCVaR always uses at most α of the episodes, Figure 6 shows that CeSoR manages to optimize CVaRα while using more than α percent of the data. pgは常にバッチ全体を使用し、gcvarは常にエピソードのα以上を使用するが、図6はcvarαをα%以上使用しながら最適化していることを示している。
訳抜け防止モード: PGは常にバッチ全体を使用します。 GCVaRは常にほとんどのエピソードのαを使用する。 図6は CeSoRは、データのα以上を使用しながらCVaRαを最適化する。
0.74
Note that even beyond the risk level scheduling (which ends after ρ = 80% of the training), the CEM still allows for more than α percent of each batch to be used. リスクレベルのスケジューリング(トレーニングの ρ = 80% の後に終わる)を超えても、CEM は各バッチの α パーセント 以上を使用することができる。 0.66
Note that GCVaR effectively uses less than α episodes in a batch if multiple episodes {τi} satisfy R(τi) = qα – since the contribution of any such episode to the gradient in Equation (3) is 0. 複数のエピソード {τi} が R(τi) = qα を満たす場合、GCVaR はバッチ内の α 回以下を効果的に利用する。
訳抜け防止モード: 複数のエピソード { τi } が R(τi ) = qα を満たすならば、GCVaR はバッチで α 回以下を効果的に利用する。 方程式 (3 ) の勾配へのそのようなエピソードの寄与は 0 である。
0.75
In the extreme case, as discussed in in Section 4.1 and Appendix E.2, all the worst α episodes are identical, and the whole loss gradient is identically 0. 極端な場合、セクション4.1 と Appendix E.2 で議論されているように、最悪の α エピソードはすべて同一であり、全体の損失勾配は 0 である。 0.73
19 19 0.43
英語(論文から抽出)日本語訳スコア
(a) Guarded Maze (b) Driving Game (a)守った迷路 (b)ドライブゲーム 0.73
(c) Servers Allocation (c)サーバの割り当て 0.89
Figure 6: Left – sample size: the percent of episode samples (out of N = 400 episodes per training iteration) used by the optimizer. 図6:左 - サンプルサイズ:オプティマイザが使用するエピソードサンプル(トレーニングイテレーション毎のN=400エピソードのうち)のパーセント。 0.70
Note that only returns R(τi) < qα are counted (strict inequality), since the contribution of episodes with R(τi) = qα to the loss is 0 (Equation (3)). R(τi) = qα の損失に対するエピソードの寄与は 0 であるため、R(τi) < qα のみが数えられる(制限不等式)。
訳抜け防止モード: R(τi ) < qα のみが数えられる(厳密な不等式)ことに注意。 R(τi ) = qα のエピソードの損失に対する寄与は 0 (方程式 3 ) である。
0.82
Right – effective sample size: this takes into account the IS weights: the effective sample size equals the number of equally-weighted independent samples needed i . 右 - 有効サンプルサイズ: これはIS重量を考慮に入れている: 有効サンプルサイズは、必要となる等重量の独立サンプルの数と等しい。 0.81
Note that for to obtain the same estimation variance [Kish, 1965, Leinster, 2014]: nef f = ((cid:80) 注意してください 同じ推定分散を得るために [kish, 1965, leinster, 2014]: nef f = ((cid:80)) 0.70
equal weights, nef f = n. 等しい重み、nef f = n である。 0.71
i wi)2/(cid:80) i wi)2/(cid:80) 0.43
i w2 D.4 Risk Characterization 私はw2 D.4 リスクキャラクタリゼーション 0.47
The CEM not only allows CeSoR to sample the most relevant environment conditions for CVaR optimization, but also allows us to characterize the conditions that correspond to the risk level α. CEMは,CeSoRがCVaR最適化に最も関係のある環境条件をサンプリングするだけでなく,リスクレベルαに対応する条件を特徴付けることができる。 0.82
This enhances our understanding of the problem and may help us to anticipate poor returns in advance. これによって問題に対する理解が深まり、不利なリターンを事前に予測する上で役立ちます。 0.61
Figure 7 presents the evolution of the sample distribution parameters φ throughout the CeSoR training process in the various benchmarks. 図7は、様々なベンチマークにおいて、CeSoRトレーニングプロセスを通してサンプル分布パラメータφの進化を示す。 0.79
In the Guarded Maze, for example, φ goes back to its original values once the agent behavior converges, which teaches us that a risk-averse agent can be entirely insensitive to the environment conditions. 例えば、監視された迷路では、エージェントの振る舞いが収束すると φ は元の値に戻り、リスク回避エージェントが環境条件に完全に影響を受けないことが分かる。 0.68
In the Driving Game, on the other hand, the agent must still beware a leader that applies many turns and emergency brakes. 一方、ドライブゲームでは、エージェントは、多くのターンと緊急ブレーキを適用するリーダーに注意しなければならない。 0.71
Furthermore, the CEM provides the connection between the risk level of interest (α) and the corresponding values of φ (e g , how many turns and brakes it takes to bring us to this risk level). さらに、CEMは、利子リスクレベル(α)とφの対応する値(例えば、このリスクレベルに私たちを導くのに必要な回転数とブレーキ数)の接続を提供する。 0.70
20 20 0.42
英語(論文から抽出)日本語訳スコア
(a) Guarded Maze (b) Servers Allocation (a)守った迷路 (b)サーバの割り当て 0.81
(c) Driving (d) Driving (c)運転 (d)運転 0.38
(e) Driving Figure 7: The evolution of the CE distribution parameters φ(cid:48) throughout the training in various benchmarks. (e)運転 図7: CE分布パラメータ φ(cid:48) の様々なベンチマークでのトレーニングを通しての進化。 0.60
(f) Driving (g) Driving (f)運転 (g)運転 0.38
E The Guarded Maze: Extended Discussion E the Guarded Maze: 拡張された議論 0.70
E.1 Implementation Details In this section we specify the implementation details of the Guarded Maze. E.1 実施内容 この節では、ガードされた迷路の実装の詳細を定義します。 0.40
The full code is available in the gym environment and the corresponding jupyter notebook. 完全なコードはジム環境と対応するjupyterノートブックで利用できる。 0.62
The Guarded Maze benchmark: The benchmark introduces a maze of size 8 × 8, with the walls marked in gray in Figure 1d. the guarded maze benchmark: ベンチマークでは8×8の大きさの迷路が導入され、壁は図1dの灰色でマークされている。 0.66
The target is a 1 × 1 square marked in green. ターゲットは緑でマークされた1×1平方である。 0.83
Every episode, the initial agent location is drawn from a uniform distribution over the lower-left quarter of the maze. エピソードごとに、初期エージェントの位置は迷路の左下四分の一に一様分布から引き出される。 0.65
Every time step, the agent can walk in one of the directions left, right, up and down, with a step size of 1, and an additive normally-distributed noise with standard deviation of 0.2 in each dimension. ステップ毎に、エージェントは、ステップサイズ1の左右上下の方向と、各次元の標準偏差0.2の加算通常分布ノイズのいずれかを歩ける。
訳抜け防止モード: ステップを踏むたびに、エージェントは左の方向の1つを歩ける。 右、上下、ステップサイズは1です。 そして、標準偏差0.2の分散ノイズを各次元で正規に付加する。
0.63
That is, st+1 = st + at + (1, 2)(cid:62) その通りです。 st+1 = st + at + (1, ) (cid:62) 0.52
where st, at ∈ R2 and i ∼ N (0, 0.22) (i ∈ {1, 2}). st は R2 ∈ R2 と N (0, 0.22) (i ∈ {1, 2}) である。 0.84
A step that ends in a wall is cancelled, and the agent remains in its place. 壁の中で終わるステップはキャンセルされ、エージェントはその場所に留まる。 0.65
Every time-step, the agent observes its location st. In practice, we use a soft (continuous) one-hot encoding of the agent location in the maze, calculated as a 2D interpolation between the 4 nearest points of a 8 × 8 grid, represented as a corresponding 8 × 8 matrix. 実際には、maze内のエージェントロケーションのソフト(連続)ワンホットエンコーディングを使い、8×8グリッドの4つの最寄りの点の間の2d補間として計算し、対応する8×8行列として表現する。
訳抜け防止モード: ステップ - エージェントは、その位置をstで観察する。 実際には、軟質(連続)のもの - 迷路内のエージェントの位置をホットエンコーディングする。 8×8グリッドの4つの最寄り点の間の2次元補間として計算される。 対応する8×8行列として表される。
0.73
That is, if the agent is located between the grid points (i, j), (i, j + 1), (i + 1, j), (i + 1, j + 1), then all the other elements of the matrix are set to 0, and these 4 elements are assigned positive value that are summarized to 1, according to the relative location of the agent between them. すなわち、エージェントが格子点 (i, j), (i, j + 1), (i + 1, j), (i + 1, j + 1) の間にあるとき、行列の他のすべての要素は 0 に設定され、これらの4つの要素はエージェント間の相対的な位置に従って1 に要約される正の値に割り当てられる。 0.76
Note that the locations of the target and the guarded zone are constant, and are not given as input. ターゲットとガードされたゾーンの位置は一定であり、入力として与えられていないことに注意。 0.68
An episode ends either when reaching the target or after 160 time-steps. エピソードは、目標に到達するか、160のタイムステップ後に終了する。 0.61
The rewards are specified in Section 5.1. 報酬は第5条1項に記載されている。 0.48
The return of an episode is the sum of its rewards (i.e., no discount factor). エピソードのリターンはその報酬の合計である(つまり、ディスカウント要因がない)。 0.65
The maze is designed such that the mean-optimal strategy is taking the shortest path to the target, where the mazeは、平均最適戦略がターゲットへの最短経路を取るように設計されている。 0.75
21 21 0.42
英語(論文から抽出)日本語訳スコア
expected cost of crossing the guarded zone is E [C1C2] = φ1φ2 = 0.2 · 32 = 6.4 – smaller than the additional cost of the longer path. ガードゾーンを横断する費用は E [C1C2] = φ1φ2 = 0.2 · 32 = 6.4 である。 0.64
The CV aR0.05-optimal strategy, however, is to take the longer path, since sometimes short cuts make long delays [Tolkien, 1954]. しかし、CV aR0.05の最適戦略は、短い切断で長い遅れが生じるため、長い道を取ることである(トールキン、1954年)。
訳抜け防止モード: しかし、CV aR0.05最適戦略は、 長い道のりを歩むのです 時々ショートカットは長い遅れを引き起こす[トールキン, 1954].
0.74
P (aj; θ) = exp(T yj)/(cid:80) P(aj; θ) = exp(T yj)/(cid:80) 0.47
Algorithms implementation: The training algorithms are specified in Section 5. アルゴリズムの実装: トレーニングアルゴリズムはセクション5で指定される。 0.87
In the maze benchmark, all of them are applied to a linear model that takes as an input the one-hot encoding described above (∈ R64), and is followed by a softmax operator with temperature T . mazeベンチマークでは、上述の1つのホットエンコーディングを入力とする線形モデル(friendfeed r64)に適用され、温度tのsoftmax演算子が続く。
訳抜け防止モード: 迷路のベンチマークでは、これら全てを、上述したホットエンコーディング( ∈ R64 )を入力として取る線形モデルに適用する。 そして、温度Tのソフトマックス演算子が続く。
0.65
That is, j(cid:48) exp(T yj(cid:48)) (where 1 ≤ j ≤ 4 and yj is the corresponding output of the linear model Fθ). すなわち、j(cid:48) exp(t yj(cid:48)) (ここで 1 ≤ j ≤ 4 と yj は線型モデル fθ の対応する出力である)。 0.89
We set a constant T = 1 over the whole training, and T = 0 (i.e., choosing the max-probability action) for validation and test episodes. トレーニング全体に対して定数T = 1を設定し、検証とテストのエピソードに対してT = 0(最大確率アクションを選択する)を選択しました。 0.74
The CE module in CeR and CeSoR controls the parameters φ of the Bernoulli and the Exponential distributions. CeR および CeSoR の CE モジュールはベルヌーイのパラメータ φ と指数分布を制御する。 0.68
Note that the module is aware of the original ("true") values of φ, but not of their semantic meaning in the maze (e g , it is not aware that high values are "bad", or that they only affect the agent through the guarded zone). 加群はφの元の(真の)値を認識しているが、迷路におけるそれらの意味的な意味(例えば、高い値が「悪い」ことや、保護されたゾーンを通してエージェントにのみ影響することを認識していない)は認識していない。
訳抜け防止モード: 加群はφ の元 ( " true " ) の値を認識していることに注意。 迷路(eg)における意味的な意味ではなく 高い価値が "悪い" であることに気付いていません。 あるいは 保護区域を通して エージェントにしか影響しない
0.72
The sample parameters update using the moments-method is as simple as φ ← (mean(C1), mean(C2)), calculated over the episodes selected by the CE (Line 12 in Algorithm 1). moments-methodを用いたサンプルパラメータの更新は、ce(アルゴリズム1のライン12)によって選択されたエピソード上で計算される φ(mean(c1), mean(c2) のように単純である。 0.78
E.2 Detailed Results Figure 8 shows the distribution of the trained agent returns over the test episodes in the Guarded Maze (note that the left tail of this distribution is displayed in Figure 1a. E.2 詳細な結果 図8は、訓練されたエージェントの分布がガードされた迷路のテストエピソードにまたがっていることを示している(この分布の左尾が図1aに示されていることに注意してください)。
訳抜け防止モード: E.2 詳細な結果 図8は、ガードされた迷路のテストエピソードでトレーニングされたエージェントの分布を示しています。 この分布の左尾は図1aに表示される。
0.69
Figure 9 shows the mean and CVaR of the training and validation scores throughout the training process. 図9は、トレーニングプロセス全体を通して、トレーニングおよび検証スコアの平均とCVaRを示しています。 0.72
Below we elaborate on the training dynamics in general, and the blindness to success in particular. 以下では、トレーニングのダイナミクス全般と、特に成功への盲目について詳しく説明する。 0.68
Figure 8: The full distribution of the trained agent returns over the test episodes in the Guarded Maze. 図8: 訓練されたエージェントの完全な配布は、ガードされた迷路でテストエピソードに戻ります。 0.66
Note that Figure 1a displays the left tail of the same distribution. 図1aは同じ分布の左尾を表示することに注意。 0.86
Figure 9: Mean and CVaR scores over the train and validation episodes throughout the Guarded Maze training. 図9: 平均とCVaRは、ガードド・モーゼのトレーニングを通して、列車とバリデーションのエピソードで得点します。 0.63
The shading corresponds to 95% confidence-intervals, based on bootstrapping over the episode-samples. シェーディングは、エピソードサンプルのブートストラップに基づく95%の信頼区間に対応する。 0.61
Note that validation and train policies are not entirely identical, as the former deterministically chooses the action of max-probability (temperature T = 0), and the latter operates stochastically (T = 1). 前者は最大確率の作用(温度T = 0)を決定的に選択し、後者は確率的に(T = 1)を演算する。
訳抜け防止モード: 前者は最大確率(温度 T = 0 )の作用を決定論的に選ぶので、検証と列車のポリシーは全く同じではないことに注意。 そして後者は確率的に作用する(T = 1 )。
0.69
Blindness to success: Section D.3 discusses the contribution of the CE sampling to the sample efficiency. 成功への盲点: セクションD.3では、CEサンプリングのサンプル効率への貢献について論じている。 0.65
Here we discuss the contribution of soft risk level scheduling to the sample efficiency, and in particular its prevention of blindness to success. 本稿では,サンプル効率に対するソフトリスクレベルのスケジューリングの寄与,特に成功に対する盲目防止について論じる。 0.77
22 22 0.42
英語(論文から抽出)日本語訳スコア
(a) (b) (c) (a) (b) (c) 0.42
Figure 10: For the first 100 iterations of the Guarded Maze training, 図10: 監視された迷路訓練の最初の100回のイテレーション 0.71
(a) the percent of episodes that reached the target through the long path; (a)長い道で目標に到達したエピソードの比率 0.52
(b) the total weight of such long-path episodes that were fed to the optimizer (out of the total weight of episodes fed to the optimizer); (b)オプティマイザに供給されたこのようなロングパスエピソードの総重量(オプティマイザに供給されるエピソードの総重量) 0.61
(c) the returns distribution over the 30th training batch; and (c)第30訓練バッチ上の戻り分布、及び 0.72
(d) percent of episodes (top) and total weight (bottom) for all 3 agent strategies (not only long path as in (d)3つのエージェント戦略(ロングパスのみでなく)のエピソード(トップ)とトータルウェイト(ボトム)の比率 0.67
(a), (b)). (d) (a) (b)。 (d) 0.33
As displayed in Figure 10a, for all the agents in the beginning of the optimization process, around 10% of the episodes in every batch reach the target through the long path. 図10aに示すように、最適化プロセスの開始時点でのすべてのエージェントに対して、各バッチにおけるエピソードの約10%が、長いパスを通じてターゲットに到達する。 0.74
At the same time, around 70% of the episodes reach the target through the short (and risky) path. 同時に、約70%のエピソードが短い(かつ危険な)経路でターゲットに到達する。 0.67
As a risk-averse algorithm, GCVaR learns to avoid the short path, and the ratio of the long-path episodes increases accordingly – reaching up to 50% around the 15th batch (recall that in training episodes the actions are selected randomly according to the policy softmax output with temperature 1, which allows the agent to randomly reach the target). リスク逆アルゴリズムとして、GCVaRはショートパスを避けることを学習し、15回目のバッチで最大50%まで到達する長道エピソードの割合が増加する(トレーニングエピソードでは、アクションが温度1のポリシーソフトマックスに従ってランダムに選択されるので、エージェントがランダムにターゲットに到達することができる)。 0.73
Nonetheless, as shown in Figure 10b, in all of the train iterations, none of the long-path episodes belong to the bottom α = 5% episodes (which are fed to the optimizer), hence GCVaR never learns to prefer the long-path. しかしながら、図10bに示すように、全ての列車の繰り返しにおいて、ロングパスエピソードは下端のα = 5%のエピソードに属さない(オプティマイザに供給される)ため、GCVaRはロングパスを好むことを決して学ばない。 0.69
This demonstrates the blindness of GCVaR to the successful long path. このことは、GCVaRの長い道への盲目を示す。 0.68
In fact, after around 10 training iterations of GCVaR, all the bottom α = 5% episodes in most batches already follow the stay-strategy (i.e., do not reach the target, nor take the guarded-zone risk), and achieve a constant return of −32 (Figure 10c). 実際、gcvarの約10回のトレーニングイテレーションの後、ほとんどのバッチの下位のα = 5%のエピソードは、既に目標に到達せず、ガードゾーンのリスクを負わない)、常に−32のリターンを達成している(図10c)。
訳抜け防止モード: 実際、GCVaRの約10回のトレーニングの後、ほとんどのバッチの下位α = 5 %のエピソードは、すでに停止している - 戦略に従っている。 (すなわち、目標に到達せず、保護されたゾーンリスクを負わない) そして −32 (図 10c ) の定数を返す。
0.74
Note that according to Equation (3), this means that the loss gradient is identically 0. 式 (3) によれば、これは損失勾配が 0 であることを意味する。 0.74
As shown in Figure 6a, the used sample size of GCVaR is indeed 0 after the 10th iteration, the effective sample efficiency is 0, and most of the changes in the agent from this point are attributed to the remaining Adam gradient momentum. 図6aに示すように、GCVaRの使用サンプルサイズは10回目以降は0であり、有効試料効率は0であり、この点からのエージェントの変化の大部分は、残りのアダム勾配運動量によるものである。 0.73
The soft risk level scheduling eliminates the blindness to success, and allows the optimizer to observe the long-path episodes (SoR in Figure 10b). ソフトリスクレベルのスケジューリングは成功への盲点を排除し、最適化者がロングパスエピソードを観察できるようにする(図10bのSoR)。 0.68
However, at the same time, it reduces the risk-aversion of the agent, and the long path is no longer preferred over the short path. しかし、同時に、エージェントのリスク回避を減少させ、短いパスよりも長いパスが好まれなくなる。 0.56
When the risk level reduces sufficiently, the agent may re-learn to avoid the short path, but the long path is no longer sampled at all and cannot be learned. リスクレベルが十分に低下すると、エージェントは短いパスを避けるために再学習するが、長いパスはもはやサンプリングされず、学習できない。 0.61
Only CeSoR manages both to observe the long-path episodes (thanks to soft risk level scheduling) and to prefer them over the short path (thanks to the risk-aversion induced by the CEM). CeSoRだけが、長いパスのエピソード(ソフトリスクレベルのスケジューリング)を観察し、短いパス(CEMによって誘導されるリスク回避)よりもそれらを好む。 0.69
23 23 0.43
英語(論文から抽出)日本語訳スコア
Examples and visualization: Figure 11 visualizes the policies learned by PG, GCVaR and CeSoR. 例と視覚化:図11はPG、GCVaR、CeSoRが学んだポリシーを視覚化します。 0.70
While the policies are defined over all the continuous state space, the visualization is restricted to a discrete grid. ポリシーは連続状態空間全体にわたって定義されるが、可視化は離散グリッドに制限される。 0.81
Note that CeSoR and GCVaR behave similarly in the lower-left part of the maze, corresponding to guarded-zone avoidance; however, since GCVaR never observed the long path and learned its benefits, it fails to learn the CVaR-optimal strategy in the upper part of the maze. 注意すべき点は、CeSoRとGCVaRは、保護されたゾーン回避に対応する迷路の左下方部で同様に振る舞うが、GCVaRは長い経路を観測せず、その利点を知ったため、迷路の上部でCVaR最適化戦略を学ばないことである。 0.70
(a) (b) (c) (a) (b) (c) 0.43
Figure 11: The policies learned by PG, GCVaR and CeSoR, visualized over a discrete grid within the continuous state space of the Guarded Maze. 図11: PG、GCVaR、CeSoRが学んだポリシーは、ガードされた迷路の連続状態空間内の離散グリッドを視覚化します。 0.74
The colors brightness around each point in the grid corresponds to the probabilities assigned to the actions by the policy given this point. グリッドの各点の周りの色輝度は、この点が与えられたポリシーによって作用に割り当てられた確率に対応する。 0.78
Figure 12 shows a sample of test episodes for each of the trained agents. 図12は、訓練された各エージェントのテストエピソードのサンプルを示しています。 0.66
Due to the reduced riskaversion of SoR (as discussed above), its best validation CVaR score was obtained early in the training, which may explain its non-smooth behavior in Figure 12. SoRのリスク回避効果が低かったため(上述した)、トレーニングの初期段階で最高のCVaRスコアが得られ、図12でその非滑らかな振る舞いを説明できた。 0.67
Figure 12: A sample of test episodes for each of the trained agents in the Guarded Maze. 図12: ガードされた迷路の訓練された各エージェントのテストエピソードのサンプル。 0.78
24 24 0.42
英語(論文から抽出)日本語訳スコア
F The Driving Game: Extended Discussion F the Driving Game: 拡張された議論 0.78
F.1 Implementation Details In this section we specify the implementation details of the Driving Game. F.1 実施内容 この節では、ドライブゲームの実装の詳細を詳述する。 0.46
The full code is available in the gym environment and the corresponding jupyter notebook. 完全なコードはジム環境と対応するjupyterノートブックで利用できる。 0.62
Note that the leader behavior generation mechanism and the policy architecture are already specified in Section 5. リーダの行動生成機構とポリシアーキテクチャはすでに第5節で指定されています。 0.60
Observation space: the policy receives the following variables as inputs: relative position dx, dy, relative on-track velocity dvx, agent acceleration ax and agent direction θ. 観測空間: ポリシーは、相対位置dx, dy, 相対軌道速度dvx, エージェント加速度ax, エージェント方向θの入力として、以下の変数を受け取る。 0.83
Action space: the possible agent actions are (1) keep speed and steer; (2) accelerate; (3) decelerate; (4) steer left; (5) steer right. 動作空間: 可能なエージェントアクションは、(1) 速度とステアリング、(2) 加速、(3) 減速、(4) ステア左、(5) ステア右である。
訳抜け防止モード: 動作空間 : 可能なエージェントアクションは (1 ) keep speed and steer ; (2 )accelerate ; である。 (3)減速する ; (4) ステア左 ; (5) ステア右。
0.82
The acceleration and deceleration magnitudes (+4m/s2,−6m/s2) were determined according to the typical acceleration value described in Singh et al [2018]. Singh et al [2018] で記述した典型的加速度値に基づいて加速度と減速の程度(+4m/s2,−6m/s2)を決定した。 0.61
Rewards: we use the rewards defined in Singh et al [2018], with the parameters r1 = 0.5, r2 = 0.05, r3 = 0.1, r4 = 0.5, r5 = 1, r6 = 0.5. 報酬: r1 = 0.5, r2 = 0.05, r3 = 0.1, r4 = 0.5, r5 = 1, r6 = 0.5 で定義される報酬を使用する。 0.83
These parameters determine the scale of the 6 additive rewards of Singh et al [2018], which correspond to staying behind the leader, staying close to the leader, keeping similar speed to the leader, keeping smooth agent acceleration, staying in the same lane as the leader, and staying on-road, respectively. これらのパラメータは、リーダーの後ろにとどまり、リーダーに近づいたままで、リーダーと同等の速度を保ち、エージェントの加速をスムーズに保ち、リーダーと同じ車線に留まり、そして道路上に留まっているsingh et al [2018]の6つの付加的な報酬のスケールを決定する。 0.76
We also add a new additive reward of size 5 for any time-step with overlap between the agent and leader cars, meant to penalize collisions – which are not explicitly expressed in the original rewards. また、エージェントとリーダカーの間に重なり合う任意の時間ステップに対して、サイズ5の新たな加算報酬を追加します。
訳抜け防止モード: また,エージェントとリーダカーの重なりを伴うステップとして,サイズ5の新たな追加報酬もいつでも追加します。 衝突を罰すること - 元の報酬では明示的に表現されていない。
0.64
F.2 Detailed Results Figures 13-16 present a detailed analysis of the results of the Driving Game experiments. F2 詳細な結果 図13-16は、ドライブゲーム実験の結果の詳細な分析を示す。 0.66
Figure 13: The full distribution of the trained agent returns over the test episodes in the Driving Game. 図13: 訓練されたエージェントの完全な配布は、ドライブゲームにおけるテストエピソードを返します。 0.75
Note that Figure 1b displays the left tail of the same distribution. 図1bは同じ分布の左尾を表示することに注意。 0.86
Figure 14: Mean and CVaR scores over the validation episodes throughout the Driving Game training. 図14: 平均とCVaRは、ドライビングゲームトレーニングを通して、バリデーションのエピソードで得点します。 0.69
The shading corresponds to 95% confidence-intervals, based on bootstrapping over the episode-samples. シェーディングは、エピソードサンプルのブートストラップに基づく95%の信頼区間に対応する。 0.61
(a) M ean (b) CV aR1% (a)アンアン (b)CV aR1% 0.47
25 25 0.43
英語(論文から抽出)日本語訳スコア
Figure 15: Over all the time-steps in all the test episodes, the distribution of 図15: 全てのテストエピソードのすべての時間ステップにおいて、その分布 0.82
(a) the agent actions, and (a)代理人の行動,及び 0.85
(b) the distance kept between the agent and the leader. (b)代理人とリーダーとの間の距離が保たれること。 0.75
Evidently, CeSoR learns to keep more distance than the risk-neutral PG, and has a less frequent use of the gas and the brake. 明らかに、CeSoRはリスクニュートラルPGよりも距離を保ち、ガスとブレーキをあまり使わないことを学習している。 0.59
(a) (b) (a) (a) (b) (a) 0.43
(b) (c) Figure 16: (a-c) A sample frame in a test episode in the Driving Game. (b) (c) 図16: (a-c) ドライブゲームにおけるテストエピソードのサンプルフレーム。 0.54
All the agents deal with the same situation (the same sequence of leader actions, which happened to include a sequence of decelerations). すべてのエージェントは、同じ状況(たまたま一連の減速を含む、リーダーアクションの同じシーケンス)を扱う。
訳抜け防止モード: すべてのエージェントが同じ状況(リーダアクションの同じシーケンス)に対処します。 これはたまたま一連の減速を含む)。
0.67
While PG collides with the leader, CeSoR keeps a safe margin – without losing as much distance as GCVaR. PGはリーダーと衝突するが、CeSoRはGCVaRほど距離を失うことなく安全なマージンを維持している。 0.77
Note that Figure 1e effectively displays these 3 frames together. 図1eはこれらの3つのフレームを効果的に表示します。 0.55
(d) The agent-leader distance evolution in the whole episode, and the final episode score of each agent. (d)全エピソードにおけるエージェント・リーダー距離の進化,および各エージェントの最終エピソードスコア。 0.70
(d) G The Computational Resource Allocation Problem: Extended Discussion (d) G 計算資源配分問題:拡張議論 0.54
G.1 Implementation Details In this section we specify the implementation details of the Resource Allocation Problem presented in Section 5.3. G1 実施内容 本節では、第5.3節で提示された資源配分問題の実装の詳細を詳述する。 0.44
The full code is available in the gym environment and the corresponding jupyter notebook. 完全なコードはジム環境と対応するjupyterノートブックで利用できる。 0.62
The benchmark simulates one-hour episodes, where user-requests arrive randomly and the agent is responsible to allocate sufficiently many servers to handle them. ベンチマークでは1時間のエピソードをシミュレートし、ユーザリクエストがランダムに到着し、エージェントが処理するために十分な数のサーバを割り当てる責任を負う。 0.59
Once a request is attended, its service time is distributed exponentially with an average of 1 second. リクエストが到着すると、そのサービス時間は平均1秒で指数関数的に分散されます。 0.69
Every second t, the number of arrivals is distributed ∼ Exp(λt), where the arrival rate λt is itself an exponential moving average (EMA) of the (unknown) users interest rt, with a typical decay of 5 minutes (i.e., λt = 299 5·60 rt). 秒 t の到着回数は λt で、到着率 λt は(知られていない)ユーザの関心値 rt の指数的移動平均 (ema) であり、典型的な崩壊時間は 5分である(λt = 299 5·60 rt)。
訳抜け防止モード: 秒単位の t 毎に、到着回数は exp(λt ) に分散される。 λt の到着率自体が (未知) ユーザの rt に対する指数移動平均 (EMA ) である場合。 典型的な崩壊は5分(λt = 299 5·60 rt )である。
0.83
rt = 3 is usually constant, but an unpredictable event causes a peak load every second with probability 3·24·3600, i.e., every 3 days (or 72 episodes) on average. rt = 3 は通常一定であるが、予測不能な事象は1秒間に平均 3·24·3600 の確率でピーク負荷を引き起こす。
訳抜け防止モード: rt = 3 は通常定数である。 しかし予測不能な出来事は、確率3·24·3600で毎秒ピーク負荷を引き起こす。 平均で3日ごとに72話。
0.80
In case of a peak load we set the φ0 = ピーク負荷の場合、 φ0 = をセットします。 0.76
5·60 λt−1 + 1 5·60 λt−1 + 1 0.29
1 26 1 26 0.42
英語(論文から抽出)日本語訳スコア
R = −user cost − servers cost = − (cid:88) R = −ユーザコスト −サーバコスト = − (cid:88) 0.90
i∈requests ijavarequests 0.26
ttsi − 2 ttsi − 2 である。 0.62
ns t . 3600(cid:88) ns t である。 3600(キッド:88) 0.67
t=1 300 rt = 299 t=1 である。 300rt = 299 0.35
300 3 + 1 300 λt−1 + 1 300 3 + 1 300 λt−1 + 1 0.40
momentary user interest to rt = 3 · 300, which means that the arrival rate doubles immediately to 300 3 · 300 ≈ 6, and then starts decreasing exponentially back to 3, λt = 299 with a typical decay of 5 minutes. rt = 3 · 300 への一時的ユーザーの興味は、到着率はすぐに 300 3 · 300 / 6 に倍になり、その後指数関数的に 3 λt = 299 に減少し、5分間の典型的な崩壊となる。 0.87
Every minute, the agent observes the number of active servers 3 ≤ ns ≤ 10 (initialized every episode to ns = 4) and the number of pending user-requests in the system, and may choose to add or remove one server (or to keep the number of servers as before). エージェントは、毎分、アクティブサーバ数3 ≤ ns ≤ 10(ns = 4 のエピソードごとに初期化されている)とシステム内のユーザ要求数を観察し、1つのサーバの追加または削除を選択できる(サーバ数を以前のように保持する)。 0.82
Uploading a new server takes a 2-minute delay before the server is ready to handle requests. 新しいサーバのアップロードは、サーバがリクエストを処理する準備が整うまでに2分遅れる。 0.78
Removing a busy server takes effect once the server ends its current task. サーバが現在のタスクを終了すると、忙しいサーバを削除します。 0.82
Note that the servers form an ordered list, and only the last server in the list can be directly removed. サーバが順序付きリストを形成し、リストの最後のサーバのみが直接削除可能であることに注意してください。 0.82
This constraint has little significance, since (1) the queue of pending requests is a global FIFO queue (i.e., the assignment only happens when a server becomes available – there is no separate queue per server); (2) the requests serving time is exponentially distributed, i.e., the remaining time of the current task is independent of the task history and thus is identical for all the busy servers at any point of time. この制約は、(1)保留中の要求のキューがグローバルFIFOキューである(すなわち、割り当てはサーバが利用可能になったときにのみ発生し、サーバ毎に個別のキューが存在しない)こと、(2)リクエストのサービス時間は指数関数的に分散されていること、すなわち、現在のタスクの残りの時間はタスク履歴とは独立しており、任意の時点におけるすべての忙しいサーバと同一である。 0.83
Denoting by ttsi the Time-To-Service (TTS) latency of a request, the agent return is リクエストのTTS(Time-To-Service) レイテンシをttsiすることで、エージェントが返される。 0.67
Once a request is assigned to a server, its serving time∼ Exp(1) is independent of the agent decisions. リクエストがサーバに割り当てられると、そのサービス時間 Exp(1) はエージェントの決定とは独立している。 0.80
Thus, to simplify computations and to reduce the noise, we measure the TTS of a request only as the waiting time between arrival and beginning of serving. したがって、計算を単純化し、ノイズを低減するため、リクエストのTSを到着からサービス開始までの待ち時間としてのみ測定する。 0.77
We set a target risk level of α = 0.01, and train each agent for n = 100 steps. α = 0.01 の目標リスクレベルを設定し、n = 100 ステップごとに各エージェントをトレーニングします。 0.79
During the training, we gradually increase the episodes length L from 15 to 60 seconds. トレーニング中は、エピソードの長さLを15秒から60秒に徐々に増加させます。 0.71
The CEM controls the peak events frequency φ, or equivalently, the number of peaks per episode (which is distributed ∼ Binom(φ, L)). CEMは、ピークイベント頻度φ、または等価に、エピソード毎のピーク数を制御する(これは、分散された φ Binom(φ, L))。 0.78
The update function of φ is simply the (weighted) average number of peaks per selected episode, divided by the episode length. φ の更新関数は、単に選択されたエピソード当たりの平均ピーク数(重み付け)であり、エピソードの長さによって割られる。 0.71
ν = 50% of the episodes per batch are drawn from the original distribution Dφ0. 1バッチあたりのエピソードの ν = 50% は、元の分布 Dφ0 から引き出される。 0.75
Note that at times of no peak-loads, the arrival rate is λ = 3 and the service rate equals the number of servers ns (since the service takes 1 second on average). ピークロードがない場合、到着速度はλ = 3であり、サービスレートはサーバ数 n に等しい(サービスの平均で1秒かかるため)。 0.65
Thus, in terms of queueing theory, any number of servers ns ≥ 4 guarantees that the expected number of requests in the system is E [nr] = 3/(ns − 3) ≤ 3. したがって、待ち行列理論の観点では、任意のサーバ ns ≥ 4 の数は、システム内の要求の期待回数が E[nr] = 3/(ns − 3) ≤ 3 であることを保証する。 0.84
In particular, this means that the policy learned by PG (see Section 5.3) chooses the minimal number of servers ns = 4 that can handle no-peak demand, and adds resources only when required. 特に、PGが学んだポリシー(第5章3節参照)は、非ピーク要求に対応可能な最小数のサーバ ns = 4 を選択し、必要な時にリソースを追加することを意味する。 0.70
The agent policy receives a 9-dimensional vector as an input. エージェントポリシーは入力として9次元ベクトルを受け取る。 0.83
The first 8 elements correspond to a one-hot encoding of the current number of paid servers 3 ≤ ns ≤ 10 (including new servers that are not finished uploading yet). 最初の8要素は、現在の有償サーバ数3 ≤ ns ≤ 10(アップロードが完了していない新しいサーバを含む)の1ホット符号化に対応する。 0.86
The last element corresponds to the current number of pending user requests in the queue, divided by 10r = 30 (the average number of arriving requests in 10 seconds of no peak-load). 最後の要素はキュー内の保留中のユーザリクエストの現在の数に対応し、10r = 30(ピーク負荷なしの10秒の平均到着リクエスト数)に分割される。 0.87
G.2 Detailed Results Figure 1c summarizes the test scores of the agents, where CeSoR presents a reduction of 44% and 17% in the CVaR cost in comparison to PG and GCVaR, respectively. g.2 詳細な結果 図1cは、CeSoRがPGおよびGCVaRと比較してCVaRコストの44%と17%の低下を示したエージェントのテストスコアをまとめたものである。 0.71
In addition, its average cost is only 7% higher than PG, and 33% lower than GCVaR. さらに、その平均コストはPGよりもわずか7%高く、GCVaRより33%低い。
訳抜け防止モード: さらに、その平均コストはPGよりもわずか7%高い。 3%, GCVaRより33%低い値を示した。
0.79
That is, CeSoR significantly improves the CVaR return without as a large compromise to the mean as in GCVaR. すなわち、CeSoRは、GCVaRのように平均値に対する大きな妥協を伴わずにCVaRリターンを著しく改善する。 0.80
CeSoR also outperforms GCVaR in episodes both with and without peak events, as shown in Figure 17b below. 下の図17bに示すように、CeSoRはピークイベントと非ピークイベントの両方でGCVaRを上回っている。 0.61
As demonstrated in Figure 1f and summarized in Figure 19, PG and CeSoR learned to allocate a default of 4 and 5 servers, respectively, and to react to peak loads as needed; whereas GCVaR simply allocates 8 servers at all times. 図1fで示され、図19にまとめられているように、PGとCeSoRはそれぞれ4サーバと5サーバのデフォルトを割り当て、必要に応じてピーク負荷に対応するように学習した。 0.65
Note that the CE task – sampling the bottom α = 1% – is particularly challenging in this problem, due to the combination of very rare peak events and limited expressiveness of the Binomial distributions family. CE タスク(底面 α = 1% のサンプリング)は、非常に稀なピーク事象と二項分布系の限定表現性の組み合わせにより、この問題において特に困難である。 0.71
In particular, this family cannot guarantee the existence of a peak in a simulated episode without simulating multiple peaks per episode (i.e., P πθ φ0,α in terms of Section 4.2). 特に、この族は、エピソード毎の複数のピークをシミュレートすることなく、シミュレーションされたエピソードにおけるピークの存在を保証することができない(すなわち、p πθ φ0,α をセクション 4.2)。 0.62
Yet, CeSoR is demonstrated robust to the poor parameterization selection of Dφ, as it presents a reasonable sampling (see Appendix D.2) and improves the returns CVaR. しかし、CeSoRは適切なサンプリングを行い(Appendix D.2)、戻り値CVaRを改善するため、Dφのパラメータ化選択に頑健である。 0.74
Figures 17-20 present a detailed analysis of the results. 図17-20は、結果の詳細な分析を示す。 0.77
φ∗ (cid:54)= P πθ φ∗ (cid:54)=p πθ 0.42
27 27 0.43
英語(論文から抽出)日本語訳スコア
(a) (b) Figure 17: (a) (b) 図17 0.46
(a) The full distribution of the trained agent returns over the test episodes in the Servers Allocation Problem. (a) トレーニングされたエージェントの完全な配布は、サーバー割り当て問題におけるテストエピソードを振り返る。 0.70
Note that Figure 1c displays the left tail of the same distribution. 図1cは同じ分布の左尾を表示することに注意。 0.86
(b) A box-plot of the returns distribution for test episodes – separately for episodes with and without a peak-overloading event. (b) テストエピソードのリターン分布のボックスプロット(ピークオーバーロードイベントの有無とは別個のエピソード)。 0.58
CeSoR achieves the best scores in episodes with peak events. CeSoRはピークイベントのエピソードで最高のスコアを獲得する。 0.74
Figure 18: Mean and CVaR scores over the validation episodes throughout the Servers Allocation Problem training. 図18: 平均とcvarは、サーバ割り当て問題トレーニング全体の検証エピソードを上回ります。 0.63
The shading corresponds to 95% confidence-intervals, based on bootstrapping over the episode-samples. シェーディングは、エピソードサンプルのブートストラップに基づく95%の信頼区間に対応する。 0.61
(a) M ean (b) CV aR1% (a)アンアン (b)CV aR1% 0.47
Figure 19: The distribution of the number of servers allocated by each agent, over all the time-steps in all the test episodes. 図19: 各エージェントが割り当てるサーバの数を、すべてのテストエピソードのすべてのタイムステップに分散します。 0.73
GCVaR allocates 8 servers in advance, whereas PG and CeSoR typically allocate 4 and 5 servers, respectively, and add servers as needed in case of overloading. gcvarは前もって8つのサーバを割り当てるが、pgとcesorは4つのサーバと5つのサーバを割り当てる。
訳抜け防止モード: GCVaRは事前に8サーバを割り当てるが、PGとCeSoRは4サーバと5サーバを割り当てる。 オーバーロード時に必要に応じてサーバを追加する。
0.77
28 28 0.42
英語(論文から抽出)日本語訳スコア
(a) Two episodes with no peak events: all agents ave near-zero TTS-cost, and servers cost corresponding to their policy (which is itself shown in Figure 19). (a)ピークイベントのない2つのエピソード:全てのエージェントがほぼゼロのTSコストを回避し、サーバがポリシーに対応するコスト(図19に示す)。 0.80
(b) An episode with a peak event (right: zoom in around the event). (b)ピークイベントのあるエピソード(右:イベントの周りにズームイン)。 0.72
This figure presents the same episode displayed in Figure 1f, but normalizes the TTS and the servers allocation to the same units of cost, as defined by the benchmark. この図は図1fで示されるのと同じエピソードを示すが、ベンチマークで定義されているように、TSとサーバの割り当ては同じコスト単位に正規化している。 0.65
Notice that both PG and CeSoR react to the event with allocation of additional servers. PGとCeSoRは、追加のサーバの割り当てでイベントに反応する。 0.58
Figure 20: A sample of test episodes in the Servers Allocation Problem. 図20: サーバ割り当て問題におけるテストエピソードのサンプル。 0.74
The legends specify the TTS-cost, the servers-cost and the total cost. 伝説では、ttsコスト、サーバコスト、総コストを指定する。 0.57
29 29 0.42
                                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。