論文の概要: Recursive Least Squares Advantage Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2201.05918v1
- Date: Sat, 15 Jan 2022 20:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:46:18.012273
- Title: Recursive Least Squares Advantage Actor-Critic Algorithms
- Title(参考訳): Recursive Least Squares Advantage Actor-Critic Algorithms
- Authors: Yuan Wang, Chunyuan Zhang, Tianzong Yu, Meng Ma
- Abstract要約: 2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
- 参考スコア(独自算出の注目度): 20.792917267835247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important algorithm in deep reinforcement learning, advantage actor
critic (A2C) has been widely succeeded in both discrete and continuous control
tasks with raw pixel inputs, but its sample efficiency still needs to improve
more. In traditional reinforcement learning, actor-critic algorithms generally
use the recursive least squares (RLS) technology to update the parameter of
linear function approximators for accelerating their convergence speed.
However, A2C algorithms seldom use this technology to train deep neural
networks (DNNs) for improving their sample efficiency. In this paper, we
propose two novel RLS-based A2C algorithms and investigate their performance.
Both proposed algorithms, called RLSSA2C and RLSNA2C, use the RLS method to
train the critic network and the hidden layers of the actor network. The main
difference between them is at the policy learning step. RLSSA2C uses an
ordinary first-order gradient descent algorithm and the standard policy
gradient to learn the policy parameter. RLSNA2C uses the Kronecker-factored
approximation, the RLS method and the natural policy gradient to learn the
compatible parameter and the policy parameter. In addition, we analyze the
complexity and convergence of both algorithms, and present three tricks for
further improving their convergence speed. Finally, we demonstrate the
effectiveness of both algorithms on 40 games in the Atari 2600 environment and
11 tasks in the MuJoCo environment. From the experimental results, it is shown
that our both algorithms have better sample efficiency than the vanilla A2C on
most games or tasks, and have higher computational efficiency than other two
state-of-the-art algorithms.
- Abstract(参考訳): 深層強化学習において重要なアルゴリズムであるアドバンテージアクター批評家(A2C)は、原画素入力による離散的かつ連続的な制御タスクにおいて広く成功しているが、そのサンプル効率は改善する必要がある。
従来の強化学習では、アクター批判アルゴリズムは一般に再帰最小二乗法(RLS)技術を用いて、収束速度を加速するために線形関数近似器のパラメータを更新する。
しかし、A2Cアルゴリズムは、サンプル効率を改善するためにディープニューラルネットワーク(DNN)のトレーニングにこの技術を利用することはめったにない。
本稿では,RSSに基づく新しいA2Cアルゴリズムを提案する。
RLSSA2C と RLSNA2C と呼ばれる2つのアルゴリズムは、RSS法を用いて批評家ネットワークとアクターネットワークの隠蔽層を訓練する。
両者の主な違いは、政策学習の段階にある。
RLSSA2Cは、通常の一階勾配勾配アルゴリズムと標準方針勾配アルゴリズムを用いてポリシーパラメータを学習する。
RLSNA2Cは、Kronecker-factored approximation、RSS法、および自然方針勾配を用いて、互換パラメータとポリシーパラメータを学習する。
さらに,両アルゴリズムの複雑性と収束を解析し,収束速度をさらに向上させる3つの手法を提案する。
最後に,atari 2600環境における40ゲームとmujoco環境における11タスクにおける2つのアルゴリズムの有効性を示す。
実験結果から,我々の2つのアルゴリズムは,ほとんどのゲームやタスクにおいてバニラa2cよりも優れたサンプル効率を示し,他の2つの最先端アルゴリズムよりも高い計算効率を示した。
関連論文リスト
- Broad Critic Deep Actor Reinforcement Learning for Continuous Control [5.440090782797941]
アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
論文 参考訳(メタデータ) (2024-11-24T12:24:46Z) - CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with
Trajectory Optimization [12.115023915042617]
トラボ学習ガイドTOと強化学習(RL)は最適な制御問題を解決するための強力なツールである。
本稿では,Solev-SLのアイデアを利用したCACTOの拡張について述べる。
論文 参考訳(メタデータ) (2023-12-17T09:44:41Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。