論文の概要: Soft Deterministic Policy Gradient with Gaussian Smoothing
- arxiv url: http://arxiv.org/abs/2605.06228v1
- Date: Thu, 07 May 2026 13:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.834837
- Title: Soft Deterministic Policy Gradient with Gaussian Smoothing
- Title(参考訳): ガウスの平滑化によるソフト決定論的政策のグラディエント
- Authors: Hyunjun Na, Donghwan Lee,
- Abstract要約: 我々は、滑らかなベルマン方程式を用いて、ソフト決定論的政策勾配(Soft-DPG)を導出する。
我々はこの枠組みを深層強化学習アルゴリズムにインスタンス化し、ソフトディープ決定主義政策勾配(Soft DDPG)と呼ぶ。
- 参考スコア(独自算出の注目度): 6.622208195193136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deterministic policy gradient (DPG) is widely utilized for continuous control; however, it inherently relies on the differentiability of the critic with respect to the action during policy updates. This assumption is violated in practical control problems involving sparse or discrete rewards, leading to ill-defined policy gradients and unstable learning. To address these challenges, we propose a principled alternative based on a smoothed Bellman equation formulated via Gaussian smoothing. Specifically, we define a novel action-value function based on a smoothed Bellman equation and derive the soft deterministic policy gradient (Soft-DPG). Our formulation eliminates explicit dependence on critic action-gradients and ensures that the gradient remains well-defined even for non-smooth Q-functions. We instantiate this framework into a deep reinforcement learning algorithm, which we call soft deep deterministic policy gradient (Soft DDPG). Empirical evaluations on standard continuous control benchmarks and their discretized-reward variants show that Soft DDPG remains competitive in dense-reward settings and provides clear gains in most discretized-reward environments, where standard DDPG is more sensitive to irregular critic landscapes.
- Abstract(参考訳): 決定論的政策勾配(DPG)は、継続的制御に広く利用されているが、本質的には政策更新時の行動に対する批判者の差別性に依存している。
この仮定はスパースや離散的な報酬を含む現実的な制御問題に反し、不明確な政策勾配と不安定な学習をもたらす。
これらの課題に対処するために、ガウス滑らか化によって定式化されたスムーズなベルマン方程式に基づく原理的な代替法を提案する。
具体的には,スムーズなベルマン方程式に基づく新しい作用値関数を定義し,ソフトな決定論的政策勾配(Soft-DPG)を導出する。
我々の定式化は、批判的行動次数への明示的な依存を排除し、非滑らかなQ-函数に対しても勾配が十分に定義されていることを保証する。
我々はこの枠組みを深層強化学習アルゴリズムにインスタンス化し、ソフトディープ決定主義政策勾配(Soft DDPG)と呼ぶ。
標準連続制御ベンチマークおよびそれらの離散化回帰変種に関する実証的な評価は、ソフトDDPGが厳密な逆方向設定において競争力を持ち続け、標準DDPGが不規則な批評家の風景に敏感なほとんどの離散化逆方向環境において明らかな利益をもたらすことを示している。
関連論文リスト
- Wasserstein Proximal Policy Gradient [10.574676421687718]
We study policy gradient method for continuous-action, entropy-regularized learning through the lens of Wasserstein geometry。
我々はWPPGによって実装されたヒートステップと最適なトランスポート更新を交互に行う演算子分割方式によりWWPG(Wsserstein Proximal Policy Gradient)を導出する。
我々はWPPGの線形収束率を確立し、正確なポリシー評価と制御された近似誤差によるアクター・クリティカルな実装の両方をカバーした。
論文 参考訳(メタデータ) (2026-03-03T03:48:09Z) - Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic [7.536387580547838]
政策非平滑性は批評家の微分幾何学によって支配されていると論じる。
批判中心の正規化フレームワークであるPAVEを紹介する。
PAVEは局所曲率を維持しながらQ段階のボラティリティを最小化して学習信号を補正する。
論文 参考訳(メタデータ) (2026-01-30T13:32:52Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。