論文の概要: Score-Based One-step MeanFlow Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.23365v1
- Date: Fri, 22 May 2026 08:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.263408
- Title: Score-Based One-step MeanFlow Policy Optimization
- Title(参考訳): スコアベースワンステップ平均フローポリシー最適化
- Authors: Kyungyoon Kim, Donghyeon Ki, Hee-Jun Ahn, Byung-Jun Lee,
- Abstract要約: MeanFlowは、単一のネットワーク評価でノイズをデータにマップする平均速度場を学ぶことで、有望な代替手段を提供する。
本稿では,Q関数から直接目標速度場を構築することで,これを解決するアクタークリティカルなアルゴリズムであるScore-based One-step MeanFlow Policy Optimization (SOM)を提案する。
SOMは、単一生成ステップで移動タスクの最先端のパフォーマンスを達成し、事前拡散およびフローマッチングベースのポリシーと比較して、トレーニング時間と推論時間を著しく短縮する。
- 参考スコア(独自算出の注目度): 4.94481688445056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow matching have emerged as expressive policy classes in reinforcement learning, but their reliance on multi-step denoising imposes substantial computational overhead at inference time, which is particularly problematic in online RL. MeanFlow offers a promising alternative by learning an average velocity field that maps noise to data in a single network evaluation. However, MeanFlow typically requires samples from the target distribution to construct its target velocity field, which are unavailable in online RL. We propose Score-Based One-step MeanFlow Policy Optimization (SOM), an actor-critic algorithm that resolves this by constructing the target velocity field directly from the Q-function via score estimation and a probability flow ODE, thereby concentrating probability mass on high-value modes. In the fully online RL setting, SOM achieves state-of-the-art performance on locomotion tasks with a single generation step, while substantially reducing both training and inference time compared to prior diffusion- and flow-matching-based policies.
- Abstract(参考訳): 拡散と流れのマッチングは強化学習における表現的な政策クラスとして現れてきたが、多段階の分極への依存は推論時にかなりの計算オーバーヘッドを課し、特にオンラインRLでは問題となっている。
MeanFlowは、単一のネットワーク評価でノイズをデータにマップする平均速度場を学ぶことで、有望な代替手段を提供する。
しかし、MeanFlowは通常、ターゲット分布からのサンプルを必要とし、ターゲット速度場を構築するが、オンラインRLでは利用できない。
Score-based One-step MeanFlow Policy Optimization (SOM) は、スコア推定と確率フローODEを用いてQ関数から直接目標速度場を構築し、高値モードでの確率質量を集中することにより、これを解決できるアクタ批判アルゴリズムである。
完全オンラインRL設定において、SOMは単一生成ステップで移動タスクの最先端のパフォーマンスを達成し、事前拡散およびフローマッチングベースのポリシーと比較してトレーニング時間と推論時間を著しく短縮する。
関連論文リスト
- Aligning Flow Map Policies with Optimal Q-Guidance [50.514994916864275]
フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
論文 参考訳(メタデータ) (2026-05-12T17:12:29Z) - Mean Flow Policy Optimization [30.210126355529372]
MeanFlowモデルは、数ステップのフローベースの生成モデルのクラスです。
最大エントロピーRLフレームワークでMeanFlowポリシーを最適化する。
MuJoCo と DeepMind Control Suite のベンチマーク実験により,本手法が現在の拡散ベースラインに匹敵する,あるいは超えた性能を達成することを示す。
論文 参考訳(メタデータ) (2026-04-16T06:59:52Z) - Riemannian MeanFlow for One-Step Generation on Manifolds [54.09734511705173]
フローマッチングは、生成モデルのシミュレーション不要なトレーニングを可能にする。
平均フローは、位置依存接空間に速度が存在する多様体値生成に拡張することができる。
球面, トーリ, SO(3)における実験は, 品質・効率のトレードオフを改善し, サンプリングコストを大幅に削減して, 競争力のある一段階サンプリングを実証した。
論文 参考訳(メタデータ) (2026-03-11T12:41:46Z) - Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies [4.249024052507976]
本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
論文 参考訳(メタデータ) (2026-01-13T01:58:24Z) - Generative Modeling with Continuous Flows: Sample Complexity of Flow Matching [60.37045080890305]
本稿では,フローマッチングに基づく生成モデルにおいて,サンプルの複雑さを初めて解析する。
速度場推定誤差をニューラルネットワーク近似誤差、有限標本サイズによる統計的誤差、速度場推定のための有限個の最適化ステップによる最適化誤差に分解する。
論文 参考訳(メタデータ) (2025-12-01T05:14:25Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Efficient Regression-Based Training of Normalizing Flows for Boltzmann Generators [85.25962679349551]
ボルツマン・ジェネレータ(BG)は効率的なサンプリングと可能性を提供するが、最大可能性によるトレーニングはしばしば不安定であり、計算的に困難である。
本稿では,従来の最大値トレーニングの数値不安定性と計算課題を回避し,新しい,スケーラブルなトレーニング目標である正規化フローの回帰トレーニングを提案する。
論文 参考訳(メタデータ) (2025-06-01T20:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。