論文の概要: OGPO: Sample Efficient Full-Finetuning of Generative Control Policies
- arxiv url: http://arxiv.org/abs/2605.03065v1
- Date: Mon, 04 May 2026 18:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.603627
- Title: OGPO: Sample Efficient Full-Finetuning of Generative Control Policies
- Title(参考訳): OGPO:ジェネレーティブ・コントロール・ポリシーの有効フルファイバリング
- Authors: Sarvesh Patil, Mitsuhiko Nakamoto, Manan Agarwal, Shashwat Saxena, Jesse Zhang, Giri Anantharaman, Cleah Winston, Chaoyi Pan, Douglas Chen, Nai-Chieh Huang, Zeynep Temel, Oliver Kroemer, Sergey Levine, Abhishek Gupta, Hongkai Da, Paarth Shah, Max Simchowitz,
- Abstract要約: ジェネレーティブコントロールポリシー(GCP)は、ロボット学習に有効なパラメータ化として登場した。
この研究は、GCPを微調整するためのサンプル効率であるOGPO(Off-policy Generative Policy Optimization)を導入している。
OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 53.42266064673132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative control policies (GCPs), such as diffusion- and flow-based control policies, have emerged as effective parameterizations for robot learning. This work introduces Off-policy Generative Policy Optimization (OGPO), a sample-efficient algorithm for finetuning GCPs that maintains off-policy critic networks to maximize data reuse and propagate policy gradients through the full generative process of the policy via a modified PPO objective, using critics as the terminal reward. OGPO achieves state-of-the-art performance on manipulation tasks spanning multi-task settings, high-precision insertion, and dexterous control. To our knowledge, it is also the only method that can fine-tune poorly-initialized behavior cloning policies to near full task-success with no expert data in the online replay buffer, and does so with few task-specific hyperparameter tuning. Through extensive empirical investigations, we demonstrate the OGPO drastically outperforms methods alternatives on policy steering and learning residual corrections, and identify the key mechanisms behind its performance. We further introduce practical stabilizers, including success-buffer regularization, conservative advantages, $χ^2$ regularization, and Q-variance reduction, to mitigate critic over-exploitation across state- and pixel-based settings. Beyond proposing OGPO, we conduct a systematic empirical study of GCP finetuning, identifying the stabilizing mechanisms and failure modes that govern successful off-policy full-policy improvement.
- Abstract(参考訳): 拡散型およびフロー型制御ポリシなどの生成制御ポリシ(GCP)は,ロボット学習に有効なパラメータ化として現れている。
この研究は、GCPを微調整するためのサンプル効率のよいアルゴリズムであるOGPOを導入し、データの再利用を最大化し、修正されたPPOの目的を通じてポリシーの完全な生成過程を通じてポリシーの勾配を伝播する。
OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
我々の知る限り、オンライン・リプレイ・バッファに専門家データを持たず、タスク固有のハイパーパラメータ・チューニングをほとんど行わずに、未熟な動作のクローンポリシーをほぼ完全なタスク・サクセスに微調整できる唯一の方法である。
広範な実証調査を通じて、OGPOは政策ステアリングや学習残差補正の方法よりも大幅に優れており、その性能の背後にある重要なメカニズムを同定する。
さらに,成功バッファ正則化,保守的優位性,ドル^2$正則化,Q分散還元といった実用的安定化器を導入して,状態および画素ベースの設定に対する過度な露光を緩和する。
OGPOの提案以外にも、GCPファインタニングの体系的な実証的研究を行い、オフポリティックなフル政治改善を成功に導く安定化メカニズムと障害モードを特定します。
関連論文リスト
- ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm [2.6813717321945103]
より効率的な非政治データ利用による保守的オン・ポリティクス反復の安定性保証に基づく新しいPPO変種を提案する。
PPOと他の最先端の変種と比較して、バランスの取れたサンプル効率と各種タスクの安定性により、ExO-PPOの性能が向上することを示した。
論文 参考訳(メタデータ) (2026-02-10T12:29:57Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。