論文の概要: Spectral Normalisation for Deep Reinforcement Learning: an Optimisation
Perspective
- arxiv url: http://arxiv.org/abs/2105.05246v1
- Date: Tue, 11 May 2021 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:57:54.457571
- Title: Spectral Normalisation for Deep Reinforcement Learning: an Optimisation
Perspective
- Title(参考訳): 深層強化学習のためのスペクトル正規化:最適化の観点から
- Authors: Florin Gogianu and Tudor Berariu, Mihaela Rosca, Claudia Clopath,
Lucian Busoniu, Razvan Pascanu
- Abstract要約: 目的を変更するのではなく,価値関数推定器を正則化することで,開発のパフォーマンスを回復できることを示す。
正常化が学習ダイナミクスにもたらす様々な影響を解き放つためのアブレーション研究を行っています。
これらの結果は、深層強化学習の特異性に取り組むために、神経成分とその学習ダイナミクスにも注目する必要があることを示唆する。
- 参考スコア(独自算出の注目度): 22.625456135981292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the recent deep reinforcement learning advances take an RL-centric
perspective and focus on refinements of the training objective. We diverge from
this view and show we can recover the performance of these developments not by
changing the objective, but by regularising the value-function estimator.
Constraining the Lipschitz constant of a single layer using spectral
normalisation is sufficient to elevate the performance of a Categorical-DQN
agent to that of a more elaborated \rainbow{} agent on the challenging Atari
domain. We conduct ablation studies to disentangle the various effects
normalisation has on the learning dynamics and show that is sufficient to
modulate the parameter updates to recover most of the performance of spectral
normalisation. These findings hint towards the need to also focus on the neural
component and its learning dynamics to tackle the peculiarities of Deep
Reinforcement Learning.
- Abstract(参考訳): 最近の深層強化学習の進歩のほとんどは、RL中心の視点で、訓練目標の洗練に焦点を当てている。
我々はこの見解から逸脱し、目的を変更するのではなく、価値関数推定器を定式化することで、これらの開発のパフォーマンスを回復できることを示した。
スペクトル正規化を用いた単一層のリプシッツ定数の制約は、カテゴリー-DQNエージェントの性能を、挑戦的なアタリ領域上のより精巧な 'rainbow{} エージェントの性能に高めるのに十分である。
本研究は,正規化が学習ダイナミクスに与える影響を解消するためにアブレーション研究を行い,スペクトル正規化の性能のほとんどを回復するためにパラメータ更新を変調するのに十分であることを示す。
これらの結果は、深層強化学習の特異性に取り組むために、神経成分とその学習ダイナミクスにも注目する必要があることを示唆する。
関連論文リスト
- Point-Calibrated Spectral Neural Operators [54.13671100638092]
点レベル適応スペクトルベースで関数を近似することで演算子マッピングを学習する。
点平衡スペクトル演算子は点レベル適応スペクトルベースで関数を近似することで演算子マッピングを学習する。
論文 参考訳(メタデータ) (2024-10-15T08:19:39Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Learning Continually by Spectral Regularization [45.55508032009977]
連続学習アルゴリズムは、ネットワークのトレーニング性を維持しながら、良好な性能を維持することにより、可塑性の損失を軽減する。
我々は,初期化時のニューラルネットワークパラメータの特異値が学習の初期段階におけるトレーニング容易性の重要な要因であることから着想を得た,継続学習を改善するための新しい手法を開発した。
提案するスペクトル正規化器は,連続的な教師付きおよび強化学習環境において,様々なモデルアーキテクチャの訓練性と性能を維持可能であることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2024-06-10T21:34:43Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文 参考訳(メタデータ) (2024-02-29T03:53:02Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Neurally Augmented ALISTA [15.021419552695066]
本稿では、LSTMネットワークを用いて、再構成中の各ターゲットベクトルのステップサイズと閾値を個別に計算するニューラルネットワークALISTAを提案する。
提案手法はスパース再構成における経験的性能をさらに向上させ,特に圧縮比がより困難になるにつれて,既存のアルゴリズムのマージンが向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T11:39:49Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。