論文の概要: One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow
- arxiv url: http://arxiv.org/abs/2511.13035v1
- Date: Mon, 17 Nov 2025 06:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.778369
- Title: One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow
- Title(参考訳): Q-Learningによるワンステップ生成ポリシー:平均フローの再構築
- Authors: Zeyuan Wang, Da Li, Yulin Chen, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu,
- Abstract要約: ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
- 参考スコア(独自算出の注目度): 56.13949180229929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a one-step generative policy for offline reinforcement learning that maps noise directly to actions via a residual reformulation of MeanFlow, making it compatible with Q-learning. While one-step Gaussian policies enable fast inference, they struggle to capture complex, multimodal action distributions. Existing flow-based methods improve expressivity but typically rely on distillation and two-stage training when trained with Q-learning. To overcome these limitations, we propose to reformulate MeanFlow to enable direct noise-to-action generation by integrating the velocity field and noise-to-action transformation into a single policy network-eliminating the need for separate velocity estimation. We explore several reformulation variants and identify an effective residual formulation that supports expressive and stable policy learning. Our method offers three key advantages: 1) efficient one-step noise-to-action generation, 2) expressive modelling of multimodal action distributions, and 3) efficient and stable policy learning via Q-learning in a single-stage training setup. Extensive experiments on 73 tasks across the OGBench and D4RL benchmarks demonstrate that our method achieves strong performance in both offline and offline-to-online reinforcement learning settings. Code is available at https://github.com/HiccupRL/MeanFlowQL.
- Abstract(参考訳): 本稿では,Q-learning と互換性を持たせるために,MeanFlow の残留的な再構成を通じて,ノイズを直接行動にマッピングするオフライン強化学習のための一段階生成ポリシーを提案する。
一段階のガウスポリシーは高速な推論を可能にするが、複雑なマルチモーダルな行動分布を捉えるのに苦労する。
既存のフローベース手法は表現力を向上させるが、Qラーニングの訓練では蒸留と2段階の訓練に依存するのが一般的である。
これらの制限を克服するために,速度場とノイズ・ツー・アクション変換を単一ポリシーネットワークに統合することにより,個別の速度推定の必要性を解消し,MeanFlowを再構成し,直接ノイズ・ツー・アクション生成を実現することを提案する。
そこで我々は, 表現的かつ安定的な政策学習を支援する, 効果的な残留定式化を探索する。
我々の方法には3つの利点がある。
1)効率的なワンステップノイズ・ツー・アクション生成
2 マルチモーダルな行動分布の表現的モデリング及び
3) 単一段階の学習環境において,Q-ラーニングによる効率的かつ安定した政策学習を行う。
OGBench および D4RL ベンチマークにおける73タスクの大規模な実験により,本手法はオフライン・オフライン・オフライン両方の強化学習環境において高い性能を発揮することが示された。
コードはhttps://github.com/HiccupRL/MeanFlowQLで入手できる。
関連論文リスト
- SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。