論文の概要: Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm
- arxiv url: http://arxiv.org/abs/2110.10017v1
- Date: Tue, 19 Oct 2021 14:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:13:05.648119
- Title: Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm
- Title(参考訳): ニューラルネットワーク互換のオフポリシー自然アクター-クリティックアルゴリズム
- Authors: Raghuram Bharadwaj Diddigi, Prateek Jain, Prabuchandran K.J., Shalabh
Bhatnagar
- Abstract要約: 既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.115903198836694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning optimal behavior from existing data is one of the most important
problems in Reinforcement Learning (RL). This is known as "off-policy control"
in RL where an agent's objective is to compute an optimal policy based on the
data obtained from the given policy (known as the behavior policy). As the
optimal policy can be very different from the behavior policy, learning optimal
behavior is very hard in the "off-policy" setting compared to the "on-policy"
setting where new data from the policy updates will be utilized in learning.
This work proposes an off-policy natural actor-critic algorithm that utilizes
state-action distribution correction for handling the off-policy behavior and
the natural policy gradient for sample efficiency. The existing natural
gradient-based actor-critic algorithms with convergence guarantees require
fixed features for approximating both policy and value functions. This often
leads to sub-optimal learning in many RL applications. On the other hand, our
proposed algorithm utilizes compatible features that enable one to use
arbitrary neural networks to approximate the policy and the value function and
guarantee convergence to a locally optimal policy. We illustrate the benefit of
the proposed off-policy natural gradient algorithm by comparing it with the
vanilla gradient actor-critic algorithm on benchmark RL tasks.
- Abstract(参考訳): 既存のデータから最適な行動を学ぶことは強化学習(rl)において最も重要な問題の1つである。
これはrlにおいて「オフ・ポリシー・コントロール」と呼ばれ、エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
最適政策は行動方針と大きく異なる可能性があるため、政策更新から新たなデータが学習に活用される「オン・ポリシー」設定に比べて、「オフ・ポリシー」設定では最適な行動の学習は非常に困難である。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
既存の自然勾配に基づく収束保証付きアクタ-クリティックアルゴリズムは、ポリシー関数と値関数の両方を近似する固定的な特徴を必要とする。
これは多くのRLアプリケーションで準最適学習につながることが多い。
一方,提案アルゴリズムでは,任意のニューラルネットワークを用いてポリシと値関数を近似し,局所的最適ポリシへの収束を保証する,互換性のある特徴を利用する。
提案するオフポリシック自然勾配アルゴリズムの利点を,ベンチマークrlタスクにおけるバニラ勾配アクター-クリティックアルゴリズムとの比較により示す。
関連論文リスト
- Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。
数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。
政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T15:45:39Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。