論文の概要: A Self-Tuning Actor-Critic Algorithm
- arxiv url: http://arxiv.org/abs/2002.12928v5
- Date: Wed, 14 Apr 2021 08:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:36:50.137465
- Title: A Self-Tuning Actor-Critic Algorithm
- Title(参考訳): 自己調整アクター・クライブアルゴリズム
- Authors: Tom Zahavy, Zhongwen Xu, Vivek Veeriah, Matteo Hessel, Junhyuk Oh,
Hado van Hasselt, David Silver and Satinder Singh
- Abstract要約: Self-Tuning Actor-Critic (STAC) は強化学習のためのアルゴリズムである。
STACは使いやすく、サンプリング効率が良く、計算量を大幅に増やす必要がない。
研究によると、STACは2億ステップのヒト正当化スコアを243%から364%に改善した。
- 参考スコア(独自算出の注目度): 57.46821456365635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms are highly sensitive to the choice of
hyperparameters, typically requiring significant manual effort to identify
hyperparameters that perform well on a new domain. In this paper, we take a
step towards addressing this issue by using metagradients to automatically
adapt hyperparameters online by meta-gradient descent (Xu et al., 2018). We
apply our algorithm, Self-Tuning Actor-Critic (STAC), to self-tune all the
differentiable hyperparameters of an actor-critic loss function, to discover
auxiliary tasks, and to improve off-policy learning using a novel leaky V-trace
operator. STAC is simple to use, sample efficient and does not require a
significant increase in compute. Ablative studies show that the overall
performance of STAC improved as we adapt more hyperparameters. When applied to
the Arcade Learning Environment (Bellemare et al. 2012), STAC improved the
median human normalized score in 200M steps from 243% to 364%. When applied to
the DM Control suite (Tassa et al., 2018), STAC improved the mean score in 30M
steps from 217 to 389 when learning with features, from 108 to 202 when
learning from pixels, and from 195 to 295 in the Real-World Reinforcement
Learning Challenge (Dulac-Arnold et al., 2020).
- Abstract(参考訳): 強化学習アルゴリズムはハイパーパラメータの選択に非常に敏感であり、通常、新しいドメインでうまく機能するハイパーパラメータを特定するためにかなりの手作業を必要とする。
本稿では,メタグラディエントを用いたメタグラディエント降下法(Xu et al., 2018)により,オンラインのハイパーパラメータを自動的に適用することでこの問題に対処する。
提案手法である自己チューニングアクタ-クリティック(stac)を適用し,アクタ-クリティック損失関数の微分可能なすべてのハイパーパラメータを自己チューニングし,補助タスクの検出と,新たなリーク型v-トレース演算子を用いたオフポリシー学習を改善する。
STACは使いやすく、サンプリング効率が良く、計算量を大幅に増やす必要がない。
アブレーション研究は、よりハイパーパラメータに適応するにつれて、sacの全体的な性能が向上したことを示している。
アーケード学習環境(bellemare et al. 2012)に適用すると、stacは人間の平均正規化スコアを243%から364%まで200mステップで改善した。
DMコントロールスイート(Tassa et al., 2018)に適用すると,STACは,画素から学ぶ際に108から202まで,実世界強化学習チャレンジ(Dulac-Arnold et al., 2020)では195から295まで,特徴を学習する際に,30Mステップの平均スコアを217から389に改善した。
関連論文リスト
- A Meta-Level Learning Algorithm for Sequential Hyper-Parameter Space
Reduction in AutoML [2.06188179769701]
本稿では,AutoMLツールの予測性能を損なうことなく,AutoMLツールのスペースを削減するアルゴリズムを提案する。
SHSRは284の分類と375の回帰問題に基づいて評価され、約30%の実行時間を短縮し、性能低下は0.1%未満であった。
論文 参考訳(メタデータ) (2023-12-11T11:26:43Z) - Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。
我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文 参考訳(メタデータ) (2023-01-24T16:57:00Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - To tune or not to tune? An Approach for Recommending Important
Hyperparameters [2.121963121603413]
機械学習モデルの性能とハイパーパラメータの関係を構築して、トレンドを発見し、洞察を得ることを検討する。
この結果から,ユーザが時間を要するチューニング戦略を実行する価値があるかどうかを判断することが可能になる。
論文 参考訳(メタデータ) (2021-08-30T08:54:58Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。