論文の概要: EXPO: Stable Reinforcement Learning with Expressive Policies
- arxiv url: http://arxiv.org/abs/2507.07986v1
- Date: Thu, 10 Jul 2025 17:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.532772
- Title: EXPO: Stable Reinforcement Learning with Expressive Policies
- Title(参考訳): EXPO: 表現型政策による安定的な強化学習
- Authors: Perry Dong, Qiyang Li, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: 2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
- 参考スコア(独自算出の注目度): 74.30151915786233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of training and fine-tuning expressive policies with online reinforcement learning (RL) given an offline dataset. Training expressive policy classes with online RL present a unique challenge of stable value maximization. Unlike simpler Gaussian policies commonly used in online RL, expressive policies like diffusion and flow-matching policies are parameterized by a long denoising chain, which hinders stable gradient propagation from actions to policy parameters when optimizing against some value function. Our key insight is that we can address stable value maximization by avoiding direct optimization over value with the expressive policy and instead construct an on-the-fly RL policy to maximize Q-value. We propose Expressive Policy Optimization (EXPO), a sample-efficient online RL algorithm that utilizes an on-the-fly policy to maximize value with two parameterized policies -- a larger expressive base policy trained with a stable imitation learning objective and a light-weight Gaussian edit policy that edits the actions sampled from the base policy toward a higher value distribution. The on-the-fly policy optimizes the actions from the base policy with the learned edit policy and chooses the value maximizing action from the base and edited actions for both sampling and temporal-difference (TD) backup. Our approach yields up to 2-3x improvement in sample efficiency on average over prior methods both in the setting of fine-tuning a pretrained policy given offline data and in leveraging offline data to train online.
- Abstract(参考訳): オフラインデータセットが与えられたオンライン強化学習(RL)を用いて、トレーニングと微調整表現ポリシーの問題について検討する。
オンラインRLを用いた表現型ポリシークラスを訓練することは、安定な値の最大化というユニークな課題を示す。
オンラインRLで一般的に用いられる単純なガウスポリシーとは異なり、拡散やフローマッチングポリシーのような表現的なポリシーは、ある値関数に対して最適化する際に、アクションからポリシーパラメータへの安定した勾配伝播を妨げる長いデノナイジングチェーンによってパラメータ化される。
キーとなる洞察は、表現的ポリシによる値の直接最適化を回避し、Q値の最大化のためにオンザフライのRLポリシーを構築することで、安定した値の最大化に対処できるということである。
提案手法は,2つのパラメータ化ポリシで値を最大化するオンラインRLアルゴリズムであるExpressive Policy Optimization (EXPO) と,ベースポリシーからサンプリングしたアクションをより高い値分布に向けて編集する軽量ガウス編集ポリシーを提案する。
オンザフライポリシーは、ベースポリシーからのアクションを学習された編集ポリシーで最適化し、ベースから値の最大化アクションを選択し、サンプリングと時間差分(TD)バックアップの両方のために編集アクションを編集する。
提案手法は,事前訓練済みのオフラインデータとオフラインデータを利用したオンライントレーニングの両方で,従来手法よりも平均2~3倍の効率向上を実現している。
関連論文リスト
- Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。