論文の概要: Complexity-Driven Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.20509v1
- Date: Wed, 24 Sep 2025 19:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.566616
- Title: Complexity-Driven Policy Optimization
- Title(参考訳): 複雑性駆動型政策最適化
- Authors: Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi, Mirco Musolesi,
- Abstract要約: エントロピーボーナスをより堅牢な複雑性ボーナスに置き換えることを提案する。
この正規化器は、量(高エントロピー)と構造(高不均衡)のバランスをとる政策を奨励する
このような挙動は、正規化器が極端(例えば、極大障害と完全秩序)を抑圧し、エージェントが構造的で適応可能な戦略を発見する圧力を発生させるためである。
- 参考スコア(独自算出の注目度): 5.757876638037014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods often balance exploitation and exploration via entropy maximization. However, maximizing entropy pushes the policy towards a uniform random distribution, which represents an unstructured and sometimes inefficient exploration strategy. In this work, we propose replacing the entropy bonus with a more robust complexity bonus. In particular, we adopt a measure of complexity, defined as the product of Shannon entropy and disequilibrium, where the latter quantifies the distance from the uniform distribution. This regularizer encourages policies that balance stochasticity (high entropy) with structure (high disequilibrium), guiding agents toward regimes where useful, non-trivial behaviors can emerge. Such behaviors arise because the regularizer suppresses both extremes, e.g., maximal disorder and complete order, creating pressure for agents to discover structured yet adaptable strategies. Starting from Proximal Policy Optimization (PPO), we introduce Complexity-Driven Policy Optimization (CDPO), a new learning algorithm that replaces entropy with complexity. We show empirically across a range of discrete action space tasks that CDPO is more robust to the choice of the complexity coefficient than PPO is with the entropy coefficient, especially in environments requiring greater exploration.
- Abstract(参考訳): 政策勾配法はしばしばエントロピーの最大化による搾取と探検のバランスをとる。
しかし、エントロピーの最大化は、非構造的かつ時には非効率な探索戦略を表す一様ランダム分布へとポリシーを推し進める。
本研究ではエントロピーボーナスをより堅牢な複雑性ボーナスに置き換えることを提案する。
特に、シャノンエントロピーと非平衡の積として定義される複雑性の尺度を採用し、後者は均一分布からの距離を定量化する。
この正規化器は、確率性(高エントロピー)と構造(高不均衡)のバランスをとる政策を奨励し、有用な非自明な振る舞いが出現する体制へ導く。
このような挙動は、正規化器が極端(例えば、最大障害、完全秩序)を抑圧し、エージェントが構造的で適応可能な戦略を発見する圧力を発生させるためである。
PPO(Proximal Policy Optimization)から始まり、エントロピーを複雑性に置き換える新しい学習アルゴリズムであるCDPO(Complexity-Driven Policy Optimization)を導入する。
我々は,CDPOがエントロピー係数よりも複雑性係数の選択に強く,特により広い探索を必要とする環境において,様々な離散的な行動空間タスクを経験的に示す。
関連論文リスト
- The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Maximum Entropy Reinforcement Learning with Mixture Policies [54.291331971813364]
MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-03-18T11:23:39Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。