Fugu-MT 論文翻訳(概要): A Self-Tuning Actor-Critic Algorithm

論文の概要: A Self-Tuning Actor-Critic Algorithm

arxiv url: http://arxiv.org/abs/2002.12928v5
Date: Wed, 14 Apr 2021 08:43:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 01:36:50.137465
Title: A Self-Tuning Actor-Critic Algorithm
Title（参考訳）: 自己調整アクター・クライブアルゴリズム
Authors: Tom Zahavy, Zhongwen Xu, Vivek Veeriah, Matteo Hessel, Junhyuk Oh, Hado van Hasselt, David Silver and Satinder Singh
Abstract要約: Self-Tuning Actor-Critic (STAC) は強化学習のためのアルゴリズムである。 STACは使いやすく、サンプリング効率が良く、計算量を大幅に増やす必要がない。研究によると、STACは2億ステップのヒト正当化スコアを243%から364%に改善した。
参考スコア（独自算出の注目度）: 57.46821456365635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning algorithms are highly sensitive to the choice of hyperparameters, typically requiring significant manual effort to identify hyperparameters that perform well on a new domain. In this paper, we take a step towards addressing this issue by using metagradients to automatically adapt hyperparameters online by meta-gradient descent (Xu et al., 2018). We apply our algorithm, Self-Tuning Actor-Critic (STAC), to self-tune all the differentiable hyperparameters of an actor-critic loss function, to discover auxiliary tasks, and to improve off-policy learning using a novel leaky V-trace operator. STAC is simple to use, sample efficient and does not require a significant increase in compute. Ablative studies show that the overall performance of STAC improved as we adapt more hyperparameters. When applied to the Arcade Learning Environment (Bellemare et al. 2012), STAC improved the median human normalized score in 200M steps from 243% to 364%. When applied to the DM Control suite (Tassa et al., 2018), STAC improved the mean score in 30M steps from 217 to 389 when learning with features, from 108 to 202 when learning from pixels, and from 195 to 295 in the Real-World Reinforcement Learning Challenge (Dulac-Arnold et al., 2020).
Abstract（参考訳）: 強化学習アルゴリズムはハイパーパラメータの選択に非常に敏感であり、通常、新しいドメインでうまく機能するハイパーパラメータを特定するためにかなりの手作業を必要とする。本稿では,メタグラディエントを用いたメタグラディエント降下法(Xu et al., 2018)により,オンラインのハイパーパラメータを自動的に適用することでこの問題に対処する。提案手法である自己チューニングアクタ-クリティック(stac)を適用し,アクタ-クリティック損失関数の微分可能なすべてのハイパーパラメータを自己チューニングし,補助タスクの検出と,新たなリーク型v-トレース演算子を用いたオフポリシー学習を改善する。 STACは使いやすく、サンプリング効率が良く、計算量を大幅に増やす必要がない。アブレーション研究は、よりハイパーパラメータに適応するにつれて、sacの全体的な性能が向上したことを示している。アーケード学習環境(bellemare et al. 2012)に適用すると、stacは人間の平均正規化スコアを243%から364%まで200mステップで改善した。 DMコントロールスイート(Tassa et al., 2018)に適用すると,STACは,画素から学ぶ際に108から202まで,実世界強化学習チャレンジ(Dulac-Arnold et al., 2020)では195から295まで,特徴を学習する際に,30Mステップの平均スコアを217から389に改善した。

関連論文リスト

AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent [58.05410015124021]
本稿では,SGD法であるAutoSGDを紹介する。実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
論文参考訳（メタデータ） (2025-05-27T18:25:21Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
A Meta-Level Learning Algorithm for Sequential Hyper-Parameter Space Reduction in AutoML [2.06188179769701]
本稿では,AutoMLツールの予測性能を損なうことなく,AutoMLツールのスペースを削減するアルゴリズムを提案する。 SHSRは284の分類と375の回帰問題に基づいて評価され、約30%の実行時間を短縮し、性能低下は0.1%未満であった。
論文参考訳（メタデータ） (2023-12-11T11:26:43Z)
Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文参考訳（メタデータ） (2023-01-24T16:57:00Z)
Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。 CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文参考訳（メタデータ） (2023-01-11T17:58:51Z)
One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。 Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文参考訳（メタデータ） (2021-10-30T08:36:52Z)
To tune or not to tune? An Approach for Recommending Important Hyperparameters [2.121963121603413]
機械学習モデルの性能とハイパーパラメータの関係を構築して、トレンドを発見し、洞察を得ることを検討する。この結果から,ユーザが時間を要するチューニング戦略を実行する価値があるかどうかを判断することが可能になる。
論文参考訳（メタデータ） (2021-08-30T08:54:58Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文参考訳（メタデータ） (2020-10-16T08:58:24Z)
META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文参考訳（メタデータ） (2020-06-16T03:41:07Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。