論文の概要: Causal Policy Gradients
- arxiv url: http://arxiv.org/abs/2102.10362v1
- Date: Sat, 20 Feb 2021 14:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:27:27.694769
- Title: Causal Policy Gradients
- Title(参考訳): 因果政策の勾配
- Authors: Thomas Spooner, Nelson Vadori, Sumitra Ganesh
- Abstract要約: 因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
- 参考スコア(独自算出の注目度): 6.123324869194195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods can solve complex tasks but often fail when the
dimensionality of the action-space or objective multiplicity grow very large.
This occurs, in part, because the variance on score-based gradient estimators
scales quadratically with the number of targets. In this paper, we propose a
causal baseline which exploits independence structure encoded in a novel
action-target influence network. Causal policy gradients (CPGs), which follow,
provide a common framework for analysing key state-of-the-art algorithms, are
shown to generalise traditional policy gradients, and yield a principled way of
incorporating prior knowledge of a problem domain's generative processes. We
provide an analysis of the proposed estimator and identify the conditions under
which variance is guaranteed to improve. The algorithmic aspects of CPGs are
also discussed, including optimal policy factorisations, their complexity, and
the use of conditioning to efficiently scale to extremely large, concurrent
tasks. The performance advantages for two variants of the algorithm are
demonstrated on large-scale bandit and concurrent inventory management
problems.
- Abstract(参考訳): ポリシー勾配法は複雑なタスクを解決できるが、アクション空間や客観的な多重性の次元が大きくなると失敗することが多い。
これは、スコアベースの勾配推定器のばらつきが目標数と2次的にスケールするためである。
本稿では,新たな行動目標影響ネットワークで符号化された独立構造を利用する因果ベースラインを提案する。
主要な最先端のアルゴリズムを分析するための共通のフレームワークを提供する因果的政策勾配(CPG)は、伝統的な政策勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
提案した推定値の分析を行い、ばらつきの改善が保証される条件を特定します。
CPGのアルゴリズム的側面についても論じられ、最適政策因数分解、その複雑さ、非常に大きな並行タスクに効率的にスケールするための条件付けの使用などが議論されている。
このアルゴリズムの2つの変種の性能上の利点は,大規模バンディットとコンカレント在庫管理の問題で実証された。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Processing Network Controls via Deep Reinforcement Learning [0.0]
論文は、理論上の正当化と、高度なポリシー勾配アルゴリズムの実用化に関するものである。
政策改善バウンダリは、APGアルゴリズムの理論的正当性において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-05-01T04:34:21Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。