論文の概要: DNA: Proximal Policy Optimization with a Dual Network Architecture
- arxiv url: http://arxiv.org/abs/2206.10027v1
- Date: Mon, 20 Jun 2022 22:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 08:09:55.598891
- Title: DNA: Proximal Policy Optimization with a Dual Network Architecture
- Title(参考訳): dna:デュアルネットワークアーキテクチャによる近距離政策最適化
- Authors: Mathew Aitchison, Penny Sweetser
- Abstract要約: 本稿では,深いアクター・批判的強化学習モデルにおいて,価値関数とポリシーを同時に学習する問題について考察する。
これら2つのタスク間の雑音の次数-次数差により,これらの関数を協調的に学習する一般的な実践は準最適であることがわかった。
我々はこれらの課題を個別に学習するが、制限された蒸留フェーズでは性能が著しく向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper explores the problem of simultaneously learning a value function
and policy in deep actor-critic reinforcement learning models. We find that the
common practice of learning these functions jointly is sub-optimal, due to an
order-of-magnitude difference in noise levels between these two tasks. Instead,
we show that learning these tasks independently, but with a constrained
distillation phase, significantly improves performance. Furthermore, we find
that the policy gradient noise levels can be decreased by using a lower
\textit{variance} return estimate. Whereas, the value learning noise level
decreases with a lower \textit{bias} estimate. Together these insights inform
an extension to Proximal Policy Optimization we call \textit{Dual Network
Architecture} (DNA), which significantly outperforms its predecessor. DNA also
exceeds the performance of the popular Rainbow DQN algorithm on four of the
five environments tested, even under more difficult stochastic control
settings.
- Abstract(参考訳): 本稿では,アクター・クリティック強化学習モデルにおける価値関数とポリシーを同時に学習する問題について検討する。
これら2つのタスク間のノイズレベルの違いにより,これらの関数を協調的に学習する一般的な実践は準最適であることがわかった。
代わりに、これらのタスクを個別に学習するが、制限された蒸留フェーズにより、性能が著しく向上することを示す。
さらに,より低い<textit{variance}戻り推定を用いて,ポリシー勾配ノイズレベルを低減できることが判明した。
一方、値学習ノイズレベルは、より低い \textit{bias} 推定で減少する。
これらの洞察を組み合わせることで、近距離ポリシー最適化の拡張が、前者を大幅に上回る \textit{dual network architecture} (dna) と呼ばれる。
また、dnaはテストされた5つの環境のうち4つで人気のあるレインボーdqnアルゴリズムの性能を超えている。
関連論文リスト
- Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文 参考訳(メタデータ) (2023-04-06T09:57:52Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。
本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文 参考訳(メタデータ) (2022-09-10T08:55:20Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z) - A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。
ステップサイズの選択にもよるが、非常に可変である。
ステップサイズを調整するための様々な戦略が提案されている。
論文 参考訳(メタデータ) (2020-02-12T23:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。