論文の概要: Mean Flow Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.14698v1
- Date: Thu, 16 Apr 2026 06:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.768914
- Title: Mean Flow Policy Optimization
- Title(参考訳): 平均フローポリシー最適化
- Authors: Xiaoyi Dong, Xi Sheryl Zhang, Jian Cheng,
- Abstract要約: MeanFlowモデルは、数ステップのフローベースの生成モデルのクラスです。
最大エントロピーRLフレームワークでMeanFlowポリシーを最適化する。
MuJoCo と DeepMind Control Suite のベンチマーク実験により,本手法が現在の拡散ベースラインに匹敵する,あるいは超えた性能を達成することを示す。
- 参考スコア(独自算出の注目度): 30.210126355529372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently emerged as expressive policy representations for online reinforcement learning (RL). However, their iterative generative processes introduce substantial training and inference overhead. To overcome this limitation, we propose to represent policies using MeanFlow models, a class of few-step flow-based generative models, to improve training and inference efficiency over diffusion-based RL approaches. To promote exploration, we optimize MeanFlow policies under the maximum entropy RL framework via soft policy iteration, and address two key challenges specific to MeanFlow policies: action likelihood evaluation and soft policy improvement. Experiments on MuJoCo and DeepMind Control Suite benchmarks demonstrate that our method, Mean Flow Policy Optimization (MFPO), achieves performance comparable to or exceeding current diffusion-based baselines while considerably reducing training and inference time. Our code is available at https://github.com/MFPolicy/MFPO.
- Abstract(参考訳): 拡散モデルは近年,オンライン強化学習(RL)の表現的政策表現として出現している。
しかし、反復的な生成プロセスは、かなりのトレーニングと推論のオーバーヘッドをもたらす。
この制限を克服するため,数ステップのフローベース生成モデルのクラスであるMeanFlowモデルを用いて,拡散型RLモデルよりもトレーニングと推論効率を向上させることを提案する。
探索を促進するために,ソフトポリシーの反復を通じて,最大エントロピーRLフレームワーク下でのMeanFlowポリシーを最適化し,MeanFlowポリシーに特有の2つの重要な課題に対処する。
MuJoCo と DeepMind Control Suite ベンチマークの実験により,我々の手法である平均フローポリシー最適化 (MFPO) が,現行の拡散ベースラインに匹敵する性能を達成し,トレーニングや推論時間を大幅に短縮することを示した。
私たちのコードはhttps://github.com/MFPolicy/MFPOで利用可能です。
関連論文リスト
- One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Flow Matching Policy Gradients [33.011978450108636]
フローポリシー最適化は、条件付きフローマッチング損失から計算された利益重み付け比を最大化するものとしてポリシー最適化を推し進める。
FPOは,様々な連続制御タスクにおいて,スクラッチから拡散型ポリシーを訓練できることを示す。
フローベースモデルでは,マルチモーダルな動作分布を捉えることができ,特に未条件条件下でのガウスポリシーよりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2025-07-28T17:59:57Z) - Flow-Based Policy for Online Reinforcement Learning [34.86742824686496]
FlowRLは、フローベースのポリシー表現とWasserstein-2正規化最適化を統合する、オンライン強化学習のためのフレームワークである。
オンライン強化学習ベンチマークにおいて,FlowRLが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-15T10:53:35Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。