論文の概要: A KL-regularization framework for learning to plan with adaptive priors
- arxiv url: http://arxiv.org/abs/2510.04280v1
- Date: Sun, 05 Oct 2025 16:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.55708
- Title: A KL-regularization framework for learning to plan with adaptive priors
- Title(参考訳): 適応型事前計画学習のためのKL正規化フレームワーク
- Authors: Álvaro Serra-Gomez, Daniel Jarne Ornia, Dhruva Tirumala, Thomas Moerland,
- Abstract要約: 政策最適化モデル予測制御(PO-MPC)を導入する。
PO-MPCは、政策最適化の先駆けとしてプランナーの行動分布を統合する。
実験により,これらの拡張構成により,大幅な性能向上が得られた。
- 参考スコア(独自算出の注目度): 1.0246259631050245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective exploration remains a central challenge in model-based reinforcement learning (MBRL), particularly in high-dimensional continuous control tasks where sample efficiency is crucial. A prominent line of recent work leverages learned policies as proposal distributions for Model-Predictive Path Integral (MPPI) planning. Initial approaches update the sampling policy independently of the planner distribution, typically maximizing a learned value function with deterministic policy gradient and entropy regularization. However, because the states encountered during training depend on the MPPI planner, aligning the sampling policy with the planner improves the accuracy of value estimation and long-term performance. To this end, recent methods update the sampling policy by minimizing KL divergence to the planner distribution or by introducing planner-guided regularization into the policy update. In this work, we unify these MPPI-based reinforcement learning methods under a single framework by introducing Policy Optimization-Model Predictive Control (PO-MPC), a family of KL-regularized MBRL methods that integrate the planner's action distribution as a prior in policy optimization. By aligning the learned policy with the planner's behavior, PO-MPC allows more flexibility in the policy updates to trade off Return maximization and KL divergence minimization. We clarify how prior approaches emerge as special cases of this family, and we explore previously unstudied variations. Our experiments show that these extended configurations yield significant performance improvements, advancing the state of the art in MPPI-based RL.
- Abstract(参考訳): モデルベース強化学習(MBRL)において、特にサンプル効率が不可欠である高次元連続制御タスクにおいて、効果的な探索は依然として中心的な課題である。
最近の研究の顕著な行は、モデル予測パス積分(MPPI)計画のための提案として、学習したポリシーを活用する。
最初のアプローチは、プランナー分布とは独立にサンプリングポリシーを更新し、典型的には、決定論的ポリシー勾配とエントロピー正規化による学習値関数を最大化する。
しかし、訓練中に遭遇した状態はMPPIプランナーに依存しているため、サンプリングポリシーとプランナーの整合性は、値推定の精度と長期性能を改善する。
この目的のために、最近の手法では、KLの分散をプランナー分布に最小化したり、政策更新にプランナー誘導正規化を導入することでサンプリングポリシーを更新している。
本研究では,これらのMPPIに基づく強化学習手法を,政策最適化の先駆けとして,計画者の行動分布を統合するKL正規化MBRL手法のファミリーであるポリシ最適化モデル予測制御(PO-MPC)を導入することにより,単一の枠組みの下で統一する。
学習したポリシーをプランナーの行動に合わせることで、PO-MPCはポリシー更新の柔軟性を高め、Returnの最大化とKLの分散化をトレードオフする。
我々は、この家系の特別な事例として先行アプローチがどのように出現するかを明らかにし、これまで研究されていないバリエーションについて検討する。
実験の結果,MPPIを用いたRLでは,これらの拡張構成により性能が大幅に向上し,最先端のRLが向上した。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Cautious Policy Programming: Exploiting KL Regularization in Monotonic
Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。
提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:03:10Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。