論文の概要: Energy-Weighted Flow Matching for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.04975v1
- Date: Thu, 06 Mar 2025 21:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:43.799569
- Title: Energy-Weighted Flow Matching for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのエネルギー重み付きフローマッチング
- Authors: Shiyuan Zhang, Weitong Zhang, Quanquan Gu,
- Abstract要約: 本稿では, 生成モデルにおけるエネルギー誘導について検討し, 対象分布をp(mathbf x)exp(-beta mathcal E(mathcal x))$, $p(mathbf x)$, $mathcal E(mathcal x)$と定義する。
補助モデルを必要としないエネルギー誘導流を直接学習するEFM(Energy-weighted Flow Match)を導入する。
我々はこの方法論をエネルギー重み付けに拡張する
- 参考スコア(独自算出の注目度): 53.64306385597818
- License:
- Abstract: This paper investigates energy guidance in generative modeling, where the target distribution is defined as $q(\mathbf x) \propto p(\mathbf x)\exp(-\beta \mathcal E(\mathbf x))$, with $p(\mathbf x)$ being the data distribution and $\mathcal E(\mathcal x)$ as the energy function. To comply with energy guidance, existing methods often require auxiliary procedures to learn intermediate guidance during the diffusion process. To overcome this limitation, we explore energy-guided flow matching, a generalized form of the diffusion process. We introduce energy-weighted flow matching (EFM), a method that directly learns the energy-guided flow without the need for auxiliary models. Theoretical analysis shows that energy-weighted flow matching accurately captures the guided flow. Additionally, we extend this methodology to energy-weighted diffusion models and apply it to offline reinforcement learning (RL) by proposing the Q-weighted Iterative Policy Optimization (QIPO). Empirically, we demonstrate that the proposed QIPO algorithm improves performance in offline RL tasks. Notably, our algorithm is the first energy-guided diffusion model that operates independently of auxiliary models and the first exact energy-guided flow matching model in the literature.
- Abstract(参考訳): 本稿では、生成モデルにおけるエネルギー誘導について検討し、対象分布は$q(\mathbf x) \propto p(\mathbf x)\exp(-\beta \mathcal E(\mathbf x))$、データ分布は$p(\mathbf x)$、エネルギー関数は$\mathcal E(\mathcal x)$と定義される。
エネルギー誘導に従うため、既存の手法では拡散過程中に中間誘導を学習するために補助的な手順を必要とすることが多い。
この制限を克服するために、拡散過程の一般化形式であるエネルギー誘導流マッチングを探索する。
補助モデルを必要としないエネルギー誘導流を直接学習するEFM(Energy-weighted Flow Match)を導入する。
理論的解析により、エネルギー重み付き流れマッチングがガイドされた流れを正確に捉えることが示されている。
さらに、この手法をエネルギー重み付き拡散モデルに拡張し、QIPO(Q-weighted Iterative Policy Optimization)を提案し、オフライン強化学習(RL)に適用する。
実験により,提案したQIPOアルゴリズムはオフラインのRLタスクの性能を向上することを示した。
特に,本アルゴリズムは補助モデルとは独立に動作する最初のエネルギー誘導拡散モデルであり,文献における最初の正確なエネルギー誘導流マッチングモデルである。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Iterated Energy-based Flow Matching for Sampling from Boltzmann Densities [11.850515912491657]
非正規化密度から連続正規化フロー(CNF)モデルをトレーニングするための反復エネルギーベースフローマッチング(iEFM)を提案する。
以上の結果から,iEFMは既存の手法よりも優れており,効率的でスケーラブルな確率的モデリングの可能性を示している。
論文 参考訳(メタデータ) (2024-08-29T04:06:34Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Explicit Flow Matching: On The Theory of Flow Matching Algorithms with Applications [3.5409403011214295]
本稿では,フローベース生成モデルのトレーニングと解析を行うための新しい手法であるExplicit Flow Matching (ExFM)を提案する。
ExFMは、理論的に基礎付けられた損失関数、ExFM損失を利用して、トレーニング中のばらつきを実証的に低減し、より早く収束し、より安定した学習をもたらす。
論文 参考訳(メタデータ) (2024-02-05T17:45:12Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning [44.880922634512096]
本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定について考察する。
この設定の主な課題は、拡散サンプリング手順中の中間ガイダンスが未知であり、推定が難しいことである。
本稿では,中間ガイダンスの正確な定式化と,CEP(Contrative Energy Prediction)と呼ばれる新たなトレーニング目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T13:50:41Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Particle Dynamics for Learning EBMs [83.59335980576637]
エネルギーベースモデリングは教師なし学習への有望なアプローチであり、単一のモデルから多くの下流アプリケーションを生み出す。
コントラスト的アプローチ(contrastive approach)"でエネルギーベースモデルを学習する際の主な困難は、各イテレーションで現在のエネルギー関数からサンプルを生成することである。
本稿では,これらのサンプルを取得し,現行モデルからの粗大なMCMCサンプリングを回避するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T23:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。