論文の概要: One-Step Flow Policy Mirror Descent
- arxiv url: http://arxiv.org/abs/2507.23675v1
- Date: Thu, 31 Jul 2025 15:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.108503
- Title: One-Step Flow Policy Mirror Descent
- Title(参考訳): ワンステップフローポリシーミラーの老朽化
- Authors: Tianyi Chen, Haitong Ma, Na Li, Kai Wang, Bo Dai,
- Abstract要約: Flow Policy Mirror Descent (FPMD)は、ポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
- 参考スコア(独自算出の注目度): 38.39095131927252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion policies have achieved great success in online reinforcement learning (RL) due to their strong expressive capacity. However, the inference of diffusion policy models relies on a slow iterative sampling process, which limits their responsiveness. To overcome this limitation, we propose Flow Policy Mirror Descent (FPMD), an online RL algorithm that enables 1-step sampling during policy inference. Our approach exploits a theoretical connection between the distribution variance and the discretization error of single-step sampling in straight interpolation flow matching models, and requires no extra distillation or consistency training. We present two algorithm variants based on flow policy and MeanFlow policy parametrizations, respectively. Extensive empirical evaluations on MuJoCo benchmarks demonstrate that our algorithms show strong performance comparable to diffusion policy baselines while requiring hundreds of times fewer function evaluations during inference.
- Abstract(参考訳): 拡散政策は、表現力の強いオンライン強化学習(RL)において大きな成功を収めている。
しかし、拡散政策モデルの推論は、その応答性を制限する遅い反復サンプリングプロセスに依存している。
この制限を克服するために,オンラインRLアルゴリズムであるFlow Policy Mirror Descent (FPMD)を提案する。
本手法は, 直接補間流マッチングモデルにおいて, 分散分散と単段サンプリングの離散化誤差の理論的関係を利用して, 余分な蒸留や整合性トレーニングは不要である。
本稿では,フローポリシとMeanFlowポリシのパラメトリゼーションに基づく2つのアルゴリズム変種について述べる。
MuJoCoベンチマークの大規模な評価により,提案アルゴリズムは拡散ポリシーベースラインに匹敵する高い性能を示す一方で,推論時の関数評価を数百倍も削減することを示した。
関連論文リスト
- Efficient Online Reinforcement Learning for Diffusion Policy [38.39095131927252]
損失関数を再重み付けすることで従来のデノナイジングスコアマッチングを一般化する。
結果のReweighted Score Matching (RSM) は最適解と低い計算コストを保存する。
DPMD(Diffusion Policy Mirror Descent)とSDAC(Soft Diffusion Actor-Critic)という2つの実用的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-01T07:55:06Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。