論文の概要: MePoly: Max Entropy Polynomial Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.17832v1
- Date: Thu, 19 Feb 2026 20:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.145011
- Title: MePoly: Max Entropy Polynomial Policy Optimization
- Title(参考訳): MePoly:Max Entropy Polynomial Policy Optimization
- Authors: Hang Liu, Sangli Teng, Maani Ghaffari,
- Abstract要約: 本稿では,エネルギーモデルに基づく新しいポリシーパラメータ化であるMePolyを提案する。
MePolyは明示的でトラクタブルな密度を提供し、正確な確率を可能にする。
- 参考スコア(独自算出の注目度): 11.868099733113452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Optimal Control provides a unified mathematical framework for solving complex decision-making problems, encompassing paradigms such as maximum entropy reinforcement learning(RL) and imitation learning(IL). However, conventional parametric policies often struggle to represent the multi-modality of the solutions. Though diffusion-based policies are aimed at recovering the multi-modality, they lack an explicit probability density, which complicates policy-gradient optimization. To bridge this gap, we propose MePoly, a novel policy parameterization based on polynomial energy-based models. MePoly provides an explicit, tractable probability density, enabling exact entropy maximization. Theoretically, we ground our method in the classical moment problem, leveraging the universal approximation capabilities for arbitrary distributions. Empirically, we demonstrate that MePoly effectively captures complex non-convex manifolds and outperforms baselines in performance across diverse benchmarks.
- Abstract(参考訳): 確率最適制御は、最大エントロピー強化学習(RL)や模倣学習(IL)といったパラダイムを含む、複雑な意思決定問題を解決するための統一された数学的枠組みを提供する。
しかし、従来のパラメトリックポリシーは、しばしば解の多重モダリティを表現するのに苦労する。
拡散に基づくポリシーは、多モード性を取り戻すことを目的としているが、明確な確率密度が欠如しており、政策の漸進的な最適化を複雑にしている。
このギャップを埋めるために,多項式エネルギーモデルに基づく新しいポリシーパラメータ化であるMePolyを提案する。
MePolyは明示的で、抽出可能な確率密度を提供し、正確なエントロピーの最大化を可能にする。
理論的には、任意の分布に対する普遍近似能力を生かして古典的モーメント問題を解法する。
経験的に、MePolyは複雑な非凸多様体を効果的にキャプチャし、様々なベンチマークで性能のベースラインを上回ります。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Polynomial-Time Approximability of Constrained Reinforcement Learning [1.223779595809275]
一般化されたマルコフ決定過程の近似の計算複雑性について検討する。
私たちの貢献は、最適に制約されたポリシーを見つけるための時間(0,epsilon)$-additive approximationの設計です。
論文 参考訳(メタデータ) (2025-02-11T18:47:53Z) - Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Planning with a Learned Policy Basis to Optimally Solve Complex Tasks [26.621462241759133]
本稿では,後継機能を用いて政策ベースを学習し,その中の各(サブ)政治が明確に定義されたサブプロブレムを解決することを提案する。
同じサブプロブレムの集合を含む有限状態オートマトン(FSA)によって記述されるタスクでは、これらの(サブ)ポリケーションの組み合わせを使用して、追加の学習なしに最適な解を生成することができる。
論文 参考訳(メタデータ) (2024-03-22T15:51:39Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - The Geometry of Memoryless Stochastic Policy Optimization in
Infinite-Horizon POMDPs [0.0]
我々は、無限水平部分観測可能な決定プロセスにおいて、最高のメモリレスポリシーを見つけるという問題を考察する。
本研究では, 減算された状態-作用周波数と予測累積報酬が政策の関数であり, その度合いは部分観測可能性の度合いによって決定されることを示す。
論文 参考訳(メタデータ) (2021-10-14T14:42:09Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。