論文の概要: One-Step Flow Policy Mirror Descent
- arxiv url: http://arxiv.org/abs/2507.23675v1
- Date: Thu, 31 Jul 2025 15:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.108503
- Title: One-Step Flow Policy Mirror Descent
- Title(参考訳): ワンステップフローポリシーミラーの老朽化
- Authors: Tianyi Chen, Haitong Ma, Na Li, Kai Wang, Bo Dai,
- Abstract要約: Flow Policy Mirror Descent (FPMD)は、ポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
- 参考スコア(独自算出の注目度): 38.39095131927252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion policies have achieved great success in online reinforcement learning (RL) due to their strong expressive capacity. However, the inference of diffusion policy models relies on a slow iterative sampling process, which limits their responsiveness. To overcome this limitation, we propose Flow Policy Mirror Descent (FPMD), an online RL algorithm that enables 1-step sampling during policy inference. Our approach exploits a theoretical connection between the distribution variance and the discretization error of single-step sampling in straight interpolation flow matching models, and requires no extra distillation or consistency training. We present two algorithm variants based on flow policy and MeanFlow policy parametrizations, respectively. Extensive empirical evaluations on MuJoCo benchmarks demonstrate that our algorithms show strong performance comparable to diffusion policy baselines while requiring hundreds of times fewer function evaluations during inference.
- Abstract(参考訳): 拡散政策は、表現力の強いオンライン強化学習(RL)において大きな成功を収めている。
しかし、拡散政策モデルの推論は、その応答性を制限する遅い反復サンプリングプロセスに依存している。
この制限を克服するために,オンラインRLアルゴリズムであるFlow Policy Mirror Descent (FPMD)を提案する。
本手法は, 直接補間流マッチングモデルにおいて, 分散分散と単段サンプリングの離散化誤差の理論的関係を利用して, 余分な蒸留や整合性トレーニングは不要である。
本稿では,フローポリシとMeanFlowポリシのパラメトリゼーションに基づく2つのアルゴリズム変種について述べる。
MuJoCoベンチマークの大規模な評価により,提案アルゴリズムは拡散ポリシーベースラインに匹敵する高い性能を示す一方で,推論時の関数評価を数百倍も削減することを示した。
関連論文リスト
- Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Efficient Online Reinforcement Learning for Diffusion Policy [38.39095131927252]
損失関数を再重み付けすることで従来のデノナイジングスコアマッチングを一般化する。
結果のReweighted Score Matching (RSM) は最適解と低い計算コストを保存する。
DPMD(Diffusion Policy Mirror Descent)とSDAC(Soft Diffusion Actor-Critic)という2つの実用的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-01T07:55:06Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。