論文の概要: Flow Matching Policy Gradients
- arxiv url: http://arxiv.org/abs/2507.21053v1
- Date: Mon, 28 Jul 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.250794
- Title: Flow Matching Policy Gradients
- Title(参考訳): フローマッチングポリシーのグラディエント
- Authors: David McAllister, Songwei Ge, Brent Yi, Chung Min Kim, Ethan Weber, Hongsuk Choi, Haiwen Feng, Angjoo Kanazawa,
- Abstract要約: フローポリシー最適化は、条件付きフローマッチング損失から計算された利益重み付け比を最大化するものとしてポリシー最適化を推し進める。
FPOは,様々な連続制御タスクにおいて,スクラッチから拡散型ポリシーを訓練できることを示す。
フローベースモデルでは,マルチモーダルな動作分布を捉えることができ,特に未条件条件下でのガウスポリシーよりも高い性能を実現することができる。
- 参考スコア(独自算出の注目度): 33.011978450108636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-based generative models, including diffusion models, excel at modeling continuous distributions in high-dimensional spaces. In this work, we introduce Flow Policy Optimization (FPO), a simple on-policy reinforcement learning algorithm that brings flow matching into the policy gradient framework. FPO casts policy optimization as maximizing an advantage-weighted ratio computed from the conditional flow matching loss, in a manner compatible with the popular PPO-clip framework. It sidesteps the need for exact likelihood computation while preserving the generative capabilities of flow-based models. Unlike prior approaches for diffusion-based reinforcement learning that bind training to a specific sampling method, FPO is agnostic to the choice of diffusion or flow integration at both training and inference time. We show that FPO can train diffusion-style policies from scratch in a variety of continuous control tasks. We find that flow-based models can capture multimodal action distributions and achieve higher performance than Gaussian policies, particularly in under-conditioned settings.
- Abstract(参考訳): 拡散モデルを含むフローベース生成モデルは、高次元空間における連続分布のモデル化に優れる。
本研究では,フロー・ポリシー・オプティマイゼーション (FPO) を導入し,フロー・マッチングをポリシー・グラデーション・フレームワークに導入する。
FPOは、PPO-clipフレームワークと互換性のある条件付きフローマッチング損失から計算される利益重み付け比を最大化するものとして、ポリシー最適化を推し進めている。
フローベースモデルの生成能力を保ちながら、正確な精度計算の必要性を助長する。
特定のサンプリング手法にトレーニングをバインドする拡散型強化学習の従来のアプローチとは異なり、FPOはトレーニング時間と推論時間の両方で拡散や流路積分の選択に依存しない。
FPOは,様々な連続制御タスクにおいて,スクラッチから拡散型ポリシーを訓練できることを示す。
フローベースモデルでは,マルチモーダルな動作分布を捉えることができ,特に未条件条件下でのガウスポリシーよりも高い性能を実現することができる。
関連論文リスト
- Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。