Fugu-MT 論文翻訳(概要): Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model

論文の概要: Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model

arxiv url: http://arxiv.org/abs/2105.03733v3
Date: Fri, 2 Jun 2023 06:40:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 21:37:09.225814
Title: Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model
Title（参考訳）: Generative Actor-Critic: Push-forwardモデルを用いたオフポリシーアルゴリズム
Authors: Lingwei Peng, Hui Qian, Zhebang Shen, Chao Zhang, Fei Li
Abstract要約: 連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
参考スコア（独自算出の注目度）: 24.030426634281643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-free deep reinforcement learning has achieved great success in many domains, such as video games, recommendation systems and robotic control tasks. In continuous control tasks, widely used policies with Gaussian distributions results in ineffective exploration of environments and limited performance of algorithms in many cases. In this paper, we propose a density-free off-policy algorithm, Generative Actor-Critic(GAC), using the push-forward model to increase the expressiveness of policies, which also includes an entropy-like technique, MMD-entropy regularizer, to balance the exploration and exploitation. Additionnally, we devise an adaptive mechanism to automatically scale this regularizer, which further improves the stability and robustness of GAC. The experiment results show that push-forward policies possess desirable features, such as multi-modality, which can improve the efficiency of exploration and asymptotic performance of algorithms obviously.
Abstract（参考訳）: モデルなしの深層強化学習は、ビデオゲーム、レコメンデーションシステム、ロボット制御タスクなど、多くの領域で大きな成功を収めている。連続制御タスクでは、ガウス分布を持つ広く使われるポリシーは、多くの場合、環境の非効率的な探索とアルゴリズムの性能の制限をもたらす。本稿では,政策の表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズム(GAC)を提案し,また,探索と搾取のバランスをとるためにエントロピー的手法であるMDDエントロピー正規化器を含む。さらに,このレギュレータを自動スケールする適応機構を考案し,GACの安定性と堅牢性をさらに向上させる。実験結果から, プッシュフォワードポリシには, 探索効率の向上やアルゴリズムの漸近性能の向上など, 望ましい特徴があることが明らかとなった。

関連論文リスト

Evolutionary Policy Optimization [47.30139909878251]
オンライン強化学習(RL)アルゴリズムは、高いパフォーマンスとトレーニング安定性のために広く利用されているが、より大きなバッチサイズでスケールするのに苦労している。本稿では、EAのスケーラビリティと多様性と、政策勾配の性能と安定性を組み合わせたハイブリッドである進化的政策最適化(EPO)を提案する。
論文参考訳（メタデータ） (2025-03-24T18:08:54Z)
Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control [5.084000938840218]
本稿ではロバスト決定性ポリシー勾配(RDPG)と呼ばれる強化学習アルゴリズムを提案する。 RDPGは2プレイヤーゼロサムダイナミックゲームとして$H_infty$制御問題を定式化している。次に、決定論的政策勾配(DPG)とその深い強化学習を用いて、効果的な外乱減衰を伴う堅牢な制御政策を訓練する。
論文参考訳（メタデータ） (2025-02-28T13:58:22Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Adversarial Style Transfer for Robust Policy Optimization in Deep Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-08-29T18:17:35Z)
PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文参考訳（メタデータ） (2023-06-11T09:45:31Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文参考訳（メタデータ） (2021-12-20T13:13:05Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
PFPN: Continuous Control of Physically Simulated Characters using Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文参考訳（メタデータ） (2020-03-16T00:35:36Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。