論文の概要: FlowQ: Energy-Guided Flow Policies for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14139v1
- Date: Tue, 20 May 2025 09:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.037292
- Title: FlowQ: Energy-Guided Flow Policies for Offline Reinforcement Learning
- Title(参考訳): FlowQ:オフライン強化学習のためのエネルギー駆動型フローポリシー
- Authors: Marvin Alles, Nutan Chen, Patrick van der Smagt, Botond Cseke,
- Abstract要約: 本稿では,フローモデルのトレーニングを強化する新しいアプローチである,エネルギー誘導型フローマッチングを導入する。
FlowQは、エネルギー誘導型フローマッチングに基づくオフライン強化学習アルゴリズムである。
- 参考スコア(独自算出の注目度): 7.024739861125416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of guidance to steer sampling toward desired outcomes has been widely explored within diffusion models, especially in applications such as image and trajectory generation. However, incorporating guidance during training remains relatively underexplored. In this work, we introduce energy-guided flow matching, a novel approach that enhances the training of flow models and eliminates the need for guidance at inference time. We learn a conditional velocity field corresponding to the flow policy by approximating an energy-guided probability path as a Gaussian path. Learning guided trajectories is appealing for tasks where the target distribution is defined by a combination of data and an energy function, as in reinforcement learning. Diffusion-based policies have recently attracted attention for their expressive power and ability to capture multi-modal action distributions. Typically, these policies are optimized using weighted objectives or by back-propagating gradients through actions sampled by the policy. As an alternative, we propose FlowQ, an offline reinforcement learning algorithm based on energy-guided flow matching. Our method achieves competitive performance while the policy training time is constant in the number of flow sampling steps.
- Abstract(参考訳): 特に画像や軌跡生成などの拡散モデルにおいて, 所望の成果に向けてサンプリングを行うためのガイダンスの利用が広く研究されている。
しかし、訓練中に指導を組み込むことは、いまだに過小評価されている。
本研究では,フローモデルのトレーニングを強化し,推論時のガイダンスの必要性を解消する新しいアプローチである,エネルギー誘導型フローマッチングを導入する。
本研究では,エネルギー誘導確率経路をガウス経路として近似することにより,流れポリシに対応する条件速度場を学習する。
学習誘導軌道は、強化学習のように、データとエネルギー関数の組み合わせによって目標分布が定義されるタスクにアピールする。
拡散に基づく政策が最近注目されているのは、その表現力とマルチモーダルな行動分布を捉える能力である。
通常、これらのポリシーは、重み付けされた目的や、ポリシーによってサンプリングされたアクションによる逆伝播勾配によって最適化される。
代替として,エネルギー誘導型フローマッチングに基づくオフライン強化学習アルゴリズムであるFlowQを提案する。
本手法は, フローサンプリングの回数において, 政策訓練時間が一定である間に, 競争性能を達成する。
関連論文リスト
- Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Energy-Weighted Flow Matching for Offline Reinforcement Learning [53.64306385597818]
本稿では, 生成モデルにおけるエネルギー誘導について検討し, 対象分布をp(mathbf x)exp(-beta mathcal E(mathcal x))$, $p(mathbf x)$, $mathcal E(mathcal x)$と定義する。
補助モデルを必要としないエネルギー誘導流を直接学習するEFM(Energy-weighted Flow Match)を導入する。
我々はこの方法論をエネルギー重み付けに拡張する
論文 参考訳(メタデータ) (2025-03-06T21:10:12Z) - Exploratory Diffusion Model for Unsupervised Reinforcement Learning [28.413426177336703]
非教師なし強化学習(URL)は、報酬のない環境で多様な状態やスキルを探索し、エージェントを事前訓練することを目的としている。
既存の手法は、探索されたデータをモデル化し、さらなる探索を促進するために本質的な報酬を設計する。
実験データに適合する拡散モデルの強い表現能力を利用する探索拡散モデル(ExDM)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Semi-Autoregressive Energy Flows: Exploring Likelihood-Free Training of
Normalizing Flows [5.096977916317878]
本稿では, 流路の非破壊訓練について検討し, エネルギー目標について述べる。
エネルギー目的は決定自由であり、柔軟なモデルアーキテクチャをサポートする。
本研究は,本研究の目的や指標としての最大可能性の利用に疑問を呈し,生成モデルにおけるその役割に関する科学的研究に寄与する。
論文 参考訳(メタデータ) (2022-06-14T08:01:08Z) - Bootstrap Your Flow [4.374837991804085]
複雑なターゲット分布に対する正確な近似を生成するため,フローベーストレーニング手法であるFAB(Flow AIS Bootstrap)を開発した。
我々は,従来のフローベース手法が失敗する問題において,FABを用いてボルツマン分布を含む複雑な対象分布の正確な近似を導出できることを実証した。
論文 参考訳(メタデータ) (2021-11-22T20:11:47Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。