論文の概要: PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.01156v1
- Date: Sun, 01 Feb 2026 11:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.630886
- Title: PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning
- Title(参考訳): 政策フロー:強化学習における継続的正規化フローによる政策最適化
- Authors: Shunpeng Yang, Ben Liu, Hua Chen,
- Abstract要約: PolicyFlowは、CNFベースの強化学習アルゴリズムである。
表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。
PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
- 参考スコア(独自算出の注目度): 6.836651088754774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among on-policy reinforcement learning algorithms, Proximal Policy Optimization (PPO) demonstrates is widely favored for its simplicity, numerical stability, and strong empirical performance. Standard PPO relies on surrogate objectives defined via importance ratios, which require evaluating policy likelihood that is typically straightforward when the policy is modeled as a Gaussian distribution. However, extending PPO to more expressive, high-capacity policy models such as continuous normalizing flows (CNFs), also known as flow-matching models, is challenging because likelihood evaluation along the full flow trajectory is computationally expensive and often numerically unstable. To resolve this issue, we propose PolicyFlow, a novel on-policy CNF-based reinforcement learning algorithm that integrates expressive CNF policies with PPO-style objectives without requiring likelihood evaluation along the full flow path. PolicyFlow approximates importance ratios using velocity field variations along a simple interpolation path, reducing computational overhead without compromising training stability. To further prevent mode collapse and further encourage diverse behaviors, we propose the Brownian Regularizer, an implicit policy entropy regularizer inspired by Brownian motion, which is conceptually elegant and computationally lightweight. Experiments on diverse tasks across various environments including MultiGoal, PointMaze, IsaacLab and MuJoCo Playground show that PolicyFlow achieves competitive or superior performance compared to PPO using Gaussian policies and flow-based baselines including FPO and DPPO. Notably, results on MultiGoal highlight PolicyFlow's ability to capture richer multimodal action distributions.
- Abstract(参考訳): 政治強化学習アルゴリズムのうち、PPO(Proximal Policy Optimization)は、その単純さ、数値安定性、強力な経験的性能に対して広く支持されている。
標準的なPPOは、重要度で定義された代理目的に依存しており、政策がガウス分布としてモデル化される場合、通常は単純である政策可能性を評価する必要がある。
しかし, 連続正規化フロー (CNF) やフローマッチングモデル (フローマッチングモデル) など, PPO をより表現力の高い高容量政策モデルに拡張することは困難である。
この問題を解決するために,PPO方式の目的に表現型CNFポリシーを組み込んだ,新しいCNFベースの強化学習アルゴリズムであるPolyseFlowを提案する。
PolicyFlowは、単純な補間経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
さらにモード崩壊を防止し、多様な振る舞いを促進するため、概念的にはエレガントで計算的に軽量なブラウン運動にインスパイアされた暗黙のポリシーエントロピー正規化器であるブラウン正規化器を提案する。
MultiGoal、PointMaze、IsaacLab、MuJoCo Playgroundなど、さまざまな環境におけるさまざまなタスクの実験では、PPOとPPOの競合や優れたパフォーマンスを実現している。
特に、MultiGoalの結果は、よりリッチなマルチモーダルなアクション分布をキャプチャするPolicyFlowの能力を強調している。
関連論文リスト
- Dichotomous Diffusion Policy Optimization [46.51375996317989]
DIPOLEは、安定かつ制御可能な拡散ポリシー最適化のために設計された新しいRLアルゴリズムである。
また、DIPOLEを使用して、エンドツーエンドの自動運転のための大規模なビジョン言語アクションモデルをトレーニングしています。
論文 参考訳(メタデータ) (2025-12-31T16:56:56Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Flow Matching Policy Gradients [33.011978450108636]
フローポリシー最適化は、条件付きフローマッチング損失から計算された利益重み付け比を最大化するものとしてポリシー最適化を推し進める。
FPOは,様々な連続制御タスクにおいて,スクラッチから拡散型ポリシーを訓練できることを示す。
フローベースモデルでは,マルチモーダルな動作分布を捉えることができ,特に未条件条件下でのガウスポリシーよりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2025-07-28T17:59:57Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。
本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。
実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文 参考訳(メタデータ) (2025-06-03T13:28:57Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。