論文の概要: Discrete Action On-Policy Learning with Action-Value Critic
- arxiv url: http://arxiv.org/abs/2002.03534v2
- Date: Fri, 21 Feb 2020 17:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:41:37.731139
- Title: Discrete Action On-Policy Learning with Action-Value Critic
- Title(参考訳): 行動価値批判による政策学習における離散的行動
- Authors: Yuguang Yue, Yunhao Tang, Mingzhang Yin, Mingyuan Zhou
- Abstract要約: 離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
- 参考スコア(独自算出の注目度): 72.20609919995086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in discrete action space is ubiquitous in
real-world applications, but its complexity grows exponentially with the
action-space dimension, making it challenging to apply existing on-policy
gradient based deep RL algorithms efficiently. To effectively operate in
multidimensional discrete action spaces, we construct a critic to estimate
action-value functions, apply it on correlated actions, and combine these
critic estimated action values to control the variance of gradient estimation.
We follow rigorous statistical analysis to design how to generate and combine
these correlated actions, and how to sparsify the gradients by shutting down
the contributions from certain dimensions. These efforts result in a new
discrete action on-policy RL algorithm that empirically outperforms related
on-policy algorithms relying on variance control techniques. We demonstrate
these properties on OpenAI Gym benchmark tasks, and illustrate how discretizing
the action space could benefit the exploration phase and hence facilitate
convergence to a better local optimal solution thanks to the flexibility of
discrete policy.
- Abstract(参考訳): 離散的動作空間における強化学習(rl)は実世界のアプリケーションでは普遍的であるが、その複雑性はアクション空間次元とともに指数関数的に増大し、既存のオンポリシー勾配に基づくディープrlアルゴリズムを効率的に適用することが困難である。
多次元離散的行動空間を効果的に操作するために,行動-価値関数を推定し,相関した行動に適用し,これらの批判的行動値を組み合わせて勾配推定のばらつきを制御する。
厳密な統計的分析を行い、これらの相関作用の生成と組み合わせ方や、特定の次元からの貢献を断ち切ることによって勾配を緩和する方法を設計する。
これらの取り組みは、分散制御技術に依存する関連するオンポリシーアルゴリズムを経験的に上回る、新しい離散アクションオンポリシーrlアルゴリズムをもたらす。
これらの特性をopenai gymベンチマークタスクで実証し,行動空間の離散化が探索フェーズにどのような影響を与えるかを示し,離散的ポリシーの柔軟性により,より局所的な最適ソリューションへの収束を促進する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。