Fugu-MT 論文翻訳(概要): Gradient Monitored Reinforcement Learning

論文の概要: Gradient Monitored Reinforcement Learning

arxiv url: http://arxiv.org/abs/2005.12108v1
Date: Mon, 25 May 2020 13:45:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 05:19:51.939178
Title: Gradient Monitored Reinforcement Learning
Title（参考訳）: 勾配監視強化学習
Authors: Mohammed Sharafath Abdul Hameed (1), Gavneet Singh Chadha (1), Andreas Schwung (1), and Steven X. Ding (2) ((1) South Westphalia University of Applied Sciences, Germany (2) University of Duisburg-Essen, Germany)
Abstract要約: 我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper presents a novel neural network training approach for faster convergence and better generalization abilities in deep reinforcement learning. Particularly, we focus on the enhancement of training and evaluation performance in reinforcement learning algorithms by systematically reducing gradient's variance and thereby providing a more targeted learning process. The proposed method which we term as Gradient Monitoring(GM), is an approach to steer the learning in the weight parameters of a neural network based on the dynamic development and feedback from the training process itself. We propose different variants of the GM methodology which have been proven to increase the underlying performance of the model. The one of the proposed variant, Momentum with Gradient Monitoring (M-WGM), allows for a continuous adjustment of the quantum of back-propagated gradients in the network based on certain learning parameters. We further enhance the method with Adaptive Momentum with Gradient Monitoring (AM-WGM) method which allows for automatic adjustment between focused learning of certain weights versus a more dispersed learning depending on the feedback from the rewards collected. As a by-product, it also allows for automatic derivation of the required deep network sizes during training as the algorithm automatically freezes trained weights. The approach is applied to two discrete (Multi-Robot Co-ordination problem and Atari games) and one continuous control task (MuJoCo) using Advantage Actor-Critic (A2C) and Proximal Policy Optimization (PPO) respectively. The results obtained particularly underline the applicability and performance improvements of the methods in terms of generalization capability.
Abstract（参考訳）: 本稿では,より高速な収束と高次強化学習のためのニューラルネットワーク学習手法を提案する。特に,グラデーション分散を体系的に低減し,よりターゲティングな学習プロセスを提供することにより,強化学習アルゴリズムにおけるトレーニングと評価性能の向上に焦点をあてる。提案手法である勾配モニタリング(gm)は,ニューラルネットワークの重みパラメータの学習を動的発達と学習プロセスからのフィードバックに基づいて制御する手法である。モデルの性能を向上させることが証明されたGM手法の異なる変種を提案する。提案されている変種であるMomentum with Gradient Monitoring (M-WGM)は、特定の学習パラメータに基づいて、ネットワーク内のバックプロパゲート勾配の量子を連続的に調整することを可能にする。さらに, ある重みの集中学習と, 収集した報奨からのフィードバックに応じて, より分散学習を自動調整できる適応的モメンタム(AM-WGM)法による手法をさらに強化する。副産物として、トレーニング中に必要なディープネットワークサイズの自動導出も可能で、アルゴリズムはトレーニングされた重みを自動的に凍結する。この手法は,Advantage Actor-Critic (A2C) と Proximal Policy Optimization (PPO) を用いた2つの離散的(マルチロボット協調問題とアタリゲーム)と1つの連続制御タスク (MuJoCo) に適用される。その結果, 一般化能力の観点から, 手法の適用可能性と性能改善が特に強調された。

関連論文リスト

Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks [6.805997961535213]
Multiscale Gradient Descent (Multiscale-SGD) は、粗大なトレーニング戦略を利用した新しい最適化手法である。学習可能なスケールに依存しないMesh-Free Convolutions (MFC) の新たなクラスを導入する。本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
論文参考訳（メタデータ） (2025-01-22T09:13:47Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
On discretisation drift and smoothness regularisation in neural network training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。 NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文参考訳（メタデータ） (2023-10-21T15:21:36Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文参考訳（メタデータ） (2022-06-05T08:49:16Z)
Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。いくつかの実験でArbiterの有効性を実証した。
論文参考訳（メタデータ） (2022-05-17T11:01:14Z)
Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文参考訳（メタデータ） (2021-09-16T04:48:13Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文参考訳（メタデータ） (2020-06-16T03:41:07Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Weighted Aggregating Stochastic Gradient Descent for Parallel Deep Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文参考訳（メタデータ） (2020-04-07T23:38:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。