Fugu-MT 論文翻訳(概要): Actor-Critic Reinforcement Learning with Phased Actor

論文の概要: Actor-Critic Reinforcement Learning with Phased Actor

arxiv url: http://arxiv.org/abs/2404.11834v1
Date: Thu, 18 Apr 2024 01:27:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 19:50:54.520692
Title: Actor-Critic Reinforcement Learning with Phased Actor
Title（参考訳）: フェーズド・アクターを用いたアクター・クリティカル強化学習
Authors: Ruofan Wu, Junmin Zhong, Jennie Si,
Abstract要約: 本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。 PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
参考スコア（独自算出の注目度）: 10.577516871906816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy gradient methods in actor-critic reinforcement learning (RL) have become perhaps the most promising approaches to solving continuous optimal control problems. However, the trial-and-error nature of RL and the inherent randomness associated with solution approximations cause variations in the learned optimal values and policies. This has significantly hindered their successful deployment in real life applications where control responses need to meet dynamic performance criteria deterministically. Here we propose a novel phased actor in actor-critic (PAAC) method, aiming at improving policy gradient estimation and thus the quality of the control policy. Specifically, PAAC accounts for both $Q$ value and TD error in its actor update. We prove qualitative properties of PAAC for learning convergence of the value and policy, solution optimality, and stability of system dynamics. Additionally, we show variance reduction in policy gradient estimation. PAAC performance is systematically and quantitatively evaluated in this study using DeepMind Control Suite (DMC). Results show that PAAC leads to significant performance improvement measured by total cost, learning variance, robustness, learning speed and success rate. As PAAC can be piggybacked onto general policy gradient learning frameworks, we select well-known methods such as direct heuristic dynamic programming (dHDP), deep deterministic policy gradient (DDPG) and their variants to demonstrate the effectiveness of PAAC. Consequently we provide a unified view on these related policy gradient algorithms.
Abstract（参考訳）: アクター批判強化学習(RL)における政策勾配法は、おそらく、継続的な最適制御問題の解法において最も有望なアプローチである。しかし、RLの試行錯誤の性質と解近似に関連した固有のランダム性は、学習された最適値とポリシーのバリエーションを引き起こす。これにより、制御応答が動的パフォーマンス基準を決定論的に満たす必要がある現実のアプリケーションにおける、彼らの成功を著しく妨げている。本稿では、ポリシー勾配推定の改善と制御ポリシーの品質向上を目的とした、アクター・クリティカル(PAAC)手法における新しい段階的アクターを提案する。具体的には、PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。我々はPAACの質的特性を,システム力学の値と方針の収束,解の最適性,安定性の学習のために証明する。さらに,政策勾配推定におけるばらつきの低減を示す。本研究では,DeepMind Control Suite (DMC)を用いてPAAC性能を定量的に評価した。その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。一般政策勾配学習フレームワークにPAACを組み込むことができるため、直接ヒューリスティック動的プログラミング(dHDP)、Deep Deterministic Policy gradient(DDPG)などのよく知られた手法を選択し、PAACの有効性を実証する。したがって、これらの関連するポリシー勾配アルゴリズムについて統一的な見解を提供する。

関連論文リスト

Performative Policy Gradient: Optimality in Performative Reinforcement Learning [13.777823115521665]
デプロイ後の機械学習アルゴリズムは、しばしば彼らが行動する環境に影響を与える。我々はPerformative Policy Gradient Algorithm (PePG)を紹介する。 PePGは性能的に最適な政策、すなわち自分自身によって誘導される分布シフトの下で最適な政策に収束する。
論文参考訳（メタデータ） (2025-12-23T18:20:06Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文参考訳（メタデータ） (2023-01-31T12:40:50Z)
Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。 P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文参考訳（メタデータ） (2022-05-20T09:38:04Z)
Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文参考訳（メタデータ） (2022-01-22T17:44:19Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文参考訳（メタデータ） (2020-10-27T13:40:06Z)
Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。 ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。 ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文参考訳（メタデータ） (2020-06-12T16:52:29Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-01-09T02:27:18Z)
A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文参考訳（メタデータ） (2020-01-08T10:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。