論文の概要: Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies
- arxiv url: http://arxiv.org/abs/2601.08136v1
- Date: Tue, 13 Jan 2026 01:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.015626
- Title: Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies
- Title(参考訳): Reverse Flow Matching: 拡散とフローポリシによるオンライン強化学習のための統一フレームワーク
- Authors: Zeyang Li, Sunbochen Tang, Navid Azizan,
- Abstract要約: 本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
- 参考スコア(独自算出の注目度): 4.249024052507976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow policies are gaining prominence in online reinforcement learning (RL) due to their expressive power, yet training them efficiently remains a critical challenge. A fundamental difficulty in online RL is the lack of direct samples from the target distribution; instead, the target is an unnormalized Boltzmann distribution defined by the Q-function. To address this, two seemingly distinct families of methods have been proposed for diffusion policies: a noise-expectation family, which utilizes a weighted average of noise as the training target, and a gradient-expectation family, which employs a weighted average of Q-function gradients. Yet, it remains unclear how these objectives relate formally or if they can be synthesized into a more general formulation. In this paper, we propose a unified framework, reverse flow matching (RFM), which rigorously addresses the problem of training diffusion and flow models without direct target samples. By adopting a reverse inferential perspective, we formulate the training target as a posterior mean estimation problem given an intermediate noisy sample. Crucially, we introduce Langevin Stein operators to construct zero-mean control variates, deriving a general class of estimators that effectively reduce importance sampling variance. We show that existing noise-expectation and gradient-expectation methods are two specific instances within this broader class. This unified view yields two key advancements: it extends the capability of targeting Boltzmann distributions from diffusion to flow policies, and enables the principled combination of Q-value and Q-gradient information to derive an optimal, minimum-variance estimator, thereby improving training efficiency and stability. We instantiate RFM to train a flow policy in online RL, and demonstrate improved performance on continuous-control benchmarks compared to diffusion policy baselines.
- Abstract(参考訳): 拡散と流路政策は、その表現力からオンライン強化学習(RL)で注目されているが、効果的に訓練することは重要な課題である。
オンラインRLの根本的な困難は、ターゲット分布からの直接サンプルの欠如である;代わりに、ターゲットはQ-函数によって定義される非正規化ボルツマン分布である。
これを解決するために, 雑音の重み付け平均をトレーニング対象とする雑音検出ファミリと, 重み付け平均のQ関数勾配を用いる勾配探索ファミリの2つの方法が提案されている。
しかし、これらの目的が形式的にどのように関係しているか、あるいはより一般的な定式化に合成できるかどうかは不明である。
本稿では,直接的対象サンプルを使わずに,拡散モデルと流れモデルのトレーニング問題に厳密に対処する,統一的なフレームワークである逆流マッチング(RFM)を提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
重要なことに、ゼロ平均制御変数を構成するためにランゲヴィン・スタイン作用素を導入し、サンプリング分散の重要度を効果的に低減する一般的な推定器のクラスを導出する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
この統一された見解は、ボルツマン分布を拡散からフローポリシーへターゲットする能力を拡張し、Q値とQ次情報を原則的に組み合わせることで、最適最小分散推定器を導出し、訓練効率と安定性を向上させるという、2つの重要な進歩をもたらす。
オンラインRLにおけるフローポリシーをトレーニングするためにRAMをインスタンス化し、拡散ポリシーベースラインと比較して連続制御ベンチマークの性能向上を示す。
関連論文リスト
- Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models [35.36024202299119]
拡散の政策段階的手法である textbfAdvantage Weighted Matching (AWM) を導入する。
AWMは、事前学習と同一のモデリング目標を維持しながら、高逆サンプルの影響を高め、低逆サンプルを抑制する。
これは事前学習とRLを概念的かつ実践的に統一し、政策次数理論と整合性を持ち、分散を減少させ、より高速な収束をもたらす。
論文 参考訳(メタデータ) (2025-09-29T17:02:20Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフラインの強化学習では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。
拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。
提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-31T00:41:04Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Bootstrap Your Flow [4.374837991804085]
複雑なターゲット分布に対する正確な近似を生成するため,フローベーストレーニング手法であるFAB(Flow AIS Bootstrap)を開発した。
我々は,従来のフローベース手法が失敗する問題において,FABを用いてボルツマン分布を含む複雑な対象分布の正確な近似を導出できることを実証した。
論文 参考訳(メタデータ) (2021-11-22T20:11:47Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。