論文の概要: Reparameterization Flow Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.03501v1
- Date: Tue, 03 Feb 2026 13:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.46292
- Title: Reparameterization Flow Policy Optimization
- Title(参考訳): 再パラメータ化フローポリシー最適化
- Authors: Hai Zhong, Zhuoran Li, Xun Wang, Longbo Huang,
- Abstract要約: フローポリシーは、差別化可能なODE統合を通じてアクションを生成する。
RFOは、フロー生成プロセスとシステムダイナミクスを共同でバックプロパゲーションすることで、ポリシー勾配を計算する。
RFOは最先端のベースラインの報酬として約2ドルを達成している。
- 参考スコア(独自算出の注目度): 35.59197802340267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reparameterization Policy Gradient (RPG) has emerged as a powerful paradigm for model-based reinforcement learning, enabling high sample efficiency by backpropagating gradients through differentiable dynamics. However, prior RPG approaches have been predominantly restricted to Gaussian policies, limiting their performance and failing to leverage recent advances in generative models. In this work, we identify that flow policies, which generate actions via differentiable ODE integration, naturally align with the RPG framework, a connection not established in prior work. However, naively exploiting this synergy proves ineffective, often suffering from training instability and a lack of exploration. We propose Reparameterization Flow Policy Optimization (RFO). RFO computes policy gradients by backpropagating jointly through the flow generation process and system dynamics, unlocking high sample efficiency without requiring intractable log-likelihood calculations. RFO includes two tailored regularization terms for stability and exploration. We also propose a variant of RFO with action chunking. Extensive experiments on diverse locomotion and manipulation tasks, involving both rigid and soft bodies with state or visual inputs, demonstrate the effectiveness of RFO. Notably, on a challenging locomotion task controlling a soft-body quadruped, RFO achieves almost $2\times$ the reward of the state-of-the-art baseline.
- Abstract(参考訳): Reparameterization Policy Gradient (RPG) はモデルベース強化学習の強力なパラダイムとして登場し、微分力学による勾配の逆伝播による高サンプリング効率を実現している。
しかし、従来のRPGのアプローチはガウスの政策に主に制限されており、その性能を制限し、生成モデルにおける最近の進歩を活用できない。
本研究では,差別化可能なODE統合によるアクションを生成するフローポリシを,従来の作業では確立されていなかったRPGフレームワークと自然に一致させる。
しかし、このシナジーを因果的に活用することは、しばしば訓練の不安定さと探索の欠如に悩まされる、効果がないことを証明している。
RFO(Reparameterization Flow Policy Optimization)を提案する。
RFOは、フロー生成プロセスとシステムダイナミクスを共同でバックプロパゲートすることでポリシー勾配を計算し、難解なログライクな計算を必要とせず、高いサンプル効率を解放する。
RFOには安定性と探索のための2つの調整された正規化用語が含まれている。
また,アクションチャンキングを用いたRFOの変種も提案する。
剛体と軟体の両方に状態や視覚的入力を伴い、多様な移動と操作のタスクに関する広範囲な実験は、RAFの有効性を実証している。
特に、ソフトボディの四足歩行を制御する困難な移動タスクにおいて、RFOは最先端のベースラインの報酬として約2ドル(約2万2000円)を達成している。
関連論文リスト
- Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Stochastic Approximation Methods for Distortion Risk Measure Optimization [2.97238992700289]
本稿では2つの双対表現に基づくDRM最適化の降下アルゴリズムを提案する。
DM形式は3時間スケールのアルゴリズムを用いて量子関数を追跡し、勾配を計算し、決定変数を更新する。
QF形式はより単純な2時間スケールのアプローチを提供し、複雑な量子的勾配推定を必要としない。
論文 参考訳(メタデータ) (2025-10-06T07:59:09Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。