Fugu-MT 論文翻訳(概要): Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces

論文の概要: Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces

arxiv url: http://arxiv.org/abs/2506.16608v1
Date: Thu, 19 Jun 2025 21:19:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.259565
Title: Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces
Title（参考訳）: 分布パラメータアクター・クリティカル: エージェント環境境界をシフトした異種行動空間
Authors: Jiamin He, A. Rupam Mahmood, Martha White,
Abstract要約: 本稿では,分散パラメータをアクションとして扱う新しい強化学習(RL)フレームワークを提案する。この再化は、元のアクションタイプに関係なく、新しいアクション空間を連続させる。離散化された行動空間を持つ同じ環境での競合性能を実証する。
参考スコア（独自算出の注目度）: 22.711839917754375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel reinforcement learning (RL) framework that treats distribution parameters as actions, redefining the boundary between agent and environment. This reparameterization makes the new action space continuous, regardless of the original action type (discrete, continuous, mixed, etc.). Under this new parameterization, we develop a generalized deterministic policy gradient estimator, Distribution Parameter Policy Gradient (DPPG), which has lower variance than the gradient in the original action space. Although learning the critic over distribution parameters poses new challenges, we introduce interpolated critic learning (ICL), a simple yet effective strategy to enhance learning, supported by insights from bandit settings. Building on TD3, a strong baseline for continuous control, we propose a practical DPPG-based actor-critic algorithm, Distribution Parameter Actor-Critic (DPAC). Empirically, DPAC outperforms TD3 in MuJoCo continuous control tasks from OpenAI Gym and DeepMind Control Suite, and demonstrates competitive performance on the same environments with discretized action spaces.
Abstract（参考訳）: 本稿では,エージェントと環境の境界を再定義する,分散パラメータをアクションとして扱う新しい強化学習(RL)フレームワークを提案する。この再パラメータ化は、元のアクションタイプ(離散、連続、混合など)に関係なく、新しいアクション空間を連続させる。この新たなパラメータ化の下で、我々は、元のアクション空間の勾配よりも分散度が低い、一般化された決定論的ポリシー勾配推定器、分散パラメータポリシー勾配(DPPG)を開発する。分布パラメータに対する批判は新たな課題をもたらすが,包括的批判学習(ICL,interpolated critic learning)を導入する。連続制御のための強力なベースラインであるTD3上に構築され,実用的なDPPGに基づくアクタ批判アルゴリズムである分散パラメータアクタ批判(DPAC)を提案する。実証的には、DPACはOpenAI GymとDeepMind Control SuiteのMuJoCoの継続的制御タスクにおいてTD3よりも優れており、離散化されたアクション空間を持つ同じ環境での競合性能を示している。

関連論文リスト

Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文参考訳（メタデータ） (2022-12-14T22:43:56Z)
Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2022-10-13T06:15:29Z)
On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文参考訳（メタデータ） (2022-01-28T18:54:30Z)
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文参考訳（メタデータ） (2021-07-13T21:39:21Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。