論文の概要: Efficient On-Policy Reinforcement Learning via Exploration of Sparse Parameter Space
- arxiv url: http://arxiv.org/abs/2509.25876v1
- Date: Tue, 30 Sep 2025 07:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.464936
- Title: Efficient On-Policy Reinforcement Learning via Exploration of Sparse Parameter Space
- Title(参考訳): スパースパラメータ空間探索による効率的なオンライン強化学習
- Authors: Xinyu Zhang, Aishik Deb, Klaus Mueller,
- Abstract要約: PPOのような政策段階的な手法は単一の勾配方向に沿って更新され、パラメータ空間のリッチな局所構造は未探索のままである。
これまでの研究では、サロゲート勾配は真の報酬の風景と相関が低いことが示されている。
本稿では,PPOやTRPOなどのオンラインアルゴリズムとシームレスに統合する,プラグイン可能なパイプラインであるExploRLerを紹介する。
- 参考スコア(独自算出の注目度): 15.65017469378437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-gradient methods such as Proximal Policy Optimization (PPO) are typically updated along a single stochastic gradient direction, leaving the rich local structure of the parameter space unexplored. Previous work has shown that the surrogate gradient is often poorly correlated with the true reward landscape. Building on this insight, we visualize the parameter space spanned by policy checkpoints within an iteration and reveal that higher performing solutions often lie in nearby unexplored regions. To exploit this opportunity, we introduce ExploRLer, a pluggable pipeline that seamlessly integrates with on-policy algorithms such as PPO and TRPO, systematically probing the unexplored neighborhoods of surrogate on-policy gradient updates. Without increasing the number of gradient updates, ExploRLer achieves significant improvements over baselines in complex continuous control environments. Our results demonstrate that iteration-level exploration provides a practical and effective way to strengthen on-policy reinforcement learning and offer a fresh perspective on the limitations of the surrogate objective.
- Abstract(参考訳): PPO(Proximal Policy Optimization)のような政策段階的な手法は、通常、単一の確率勾配方向に沿って更新され、パラメータ空間のリッチな局所構造は未探索のままである。
これまでの研究では、サロゲート勾配は真の報酬の風景と相関が低いことが示されている。
この知見に基づいて、イテレーション内でポリシーチェックポイントによって分散されるパラメータ空間を可視化し、高パフォーマンスなソリューションがしばしば探索されていない領域に存在していることを明らかにする。
この機会を活用するために、我々は、PPOやTRPOなどのオン・ポリティクス・アルゴリズムとシームレスに統合するプラグイン可能なパイプラインであるExploRerを導入し、サーロゲートオン・ポリティクス・グラデーション・アップデートの未探索地区を体系的に探索する。
ExploRLerは、勾配更新の数を増やすことなく、複雑な継続的制御環境におけるベースラインよりも大幅に改善されている。
以上の結果から,反復レベルの探索は,政治的強化学習を強化し,代理目的の限界に対する新たな視点を提供するための実践的かつ効果的な方法であることが示された。
関連論文リスト
- Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Identifying Policy Gradient Subspaces [42.75990181248372]
ポリシー勾配法は、複雑な連続制御タスクを解く大きな可能性を秘めている。
最近の研究は、勾配が低次元でゆっくりと変化する部分空間にあるという事実を活用することで教師あり学習を加速できることを示している。
論文 参考訳(メタデータ) (2024-01-12T14:40:55Z) - Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control [24.470904615201736]
我々は、リターンランドスケープ、すなわち、ポリシーとリターンのマッピングについて研究する。
一般的なアルゴリズムは、この風景のノイズの多い地区を横切り、ポリシーパラメータを1回更新するだけで、幅広いリターンが得られます。
本研究では,政策の安定性を向上するパラメータ空間の単純な経路を見出すことにより,ランドスケープが驚くべき構造を示すことを示す。
論文 参考訳(メタデータ) (2023-09-26T01:03:54Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。