論文の概要: Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.01822v1
- Date: Sat, 03 May 2025 14:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.285975
- Title: Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための分析エネルギー誘導型政策最適化
- Authors: Jifeng Hu, Sili Huang, Zhejian Yang, Shengchao Hu, Li Shen, Hechang Chen, Lichao Sun, Yi Chang, Dacheng Tao,
- Abstract要約: 拡散モデルによる条件決定生成は強化学習(RL)において強力な競争力を示す。
近年の研究では、エネルギー-関数-誘導拡散モデルと制約付きRL問題との関係が明らかにされている。
主な課題は中間エネルギーを推定することであり、これは生成過程における対数予測の定式化によって引き起こされる。
- 参考スコア(独自算出の注目度): 54.07840818762834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional decision generation with diffusion models has shown powerful competitiveness in reinforcement learning (RL). Recent studies reveal the relation between energy-function-guidance diffusion models and constrained RL problems. The main challenge lies in estimating the intermediate energy, which is intractable due to the log-expectation formulation during the generation process. To address this issue, we propose the Analytic Energy-guided Policy Optimization (AEPO). Specifically, we first provide a theoretical analysis and the closed-form solution of the intermediate guidance when the diffusion model obeys the conditional Gaussian transformation. Then, we analyze the posterior Gaussian distribution in the log-expectation formulation and obtain the target estimation of the log-expectation under mild assumptions. Finally, we train an intermediate energy neural network to approach the target estimation of log-expectation formulation. We apply our method in 30+ offline RL tasks to demonstrate the effectiveness of our method. Extensive experiments illustrate that our method surpasses numerous representative baselines in D4RL offline reinforcement learning benchmarks.
- Abstract(参考訳): 拡散モデルによる条件決定生成は、強化学習(RL)において強力な競争力を示す。
近年の研究では、エネルギー-関数-誘導拡散モデルと制約付きRL問題との関係が明らかにされている。
主な課題は中間エネルギーを推定することであり、これは生成過程における対数予測の定式化によって引き起こされる。
この問題に対処するため,分析エネルギー誘導政策最適化(AEPO)を提案する。
具体的には、拡散モデルが条件付きガウス変換に従うとき、まず中間ガイダンスの理論的解析と閉形式解を提供する。
次に, 対数探索定式化における後ガウス分布を解析し, 軽度の仮定で対数探索の目標推定値を求める。
最後に、対数予測定式化のターゲット推定にアプローチするために、中間エネルギーニューラルネットワークを訓練する。
提案手法の有効性を示すために,30以上のオフラインRLタスクに本手法を適用した。
D4RLオフライン強化学習ベンチマークにおいて,本手法が多くの代表的ベースラインを超越していることを示す。
関連論文リスト
- Energy-Weighted Flow Matching for Offline Reinforcement Learning [53.64306385597818]
本稿では, 生成モデルにおけるエネルギー誘導について検討し, 対象分布をp(mathbf x)exp(-beta mathcal E(mathcal x))$, $p(mathbf x)$, $mathcal E(mathcal x)$と定義する。
補助モデルを必要としないエネルギー誘導流を直接学習するEFM(Energy-weighted Flow Match)を導入する。
我々はこの方法論をエネルギー重み付けに拡張する
論文 参考訳(メタデータ) (2025-03-06T21:10:12Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - A Score-Based Density Formula, with Applications in Diffusion Generative Models [6.76974373198208]
スコアベース生成モデル(SGM)は、生成モデリングの分野に革命をもたらし、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。
実験的な進歩にもかかわらず、ログライクリッド上でのエビデンスローバウンド(ELBO)の最適化がDDPMなどの拡散生成モデルの訓練に有効である理由に関する理論的根拠はほとんど未解明のままである。
論文 参考訳(メタデータ) (2024-08-29T17:59:07Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning [44.880922634512096]
本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定について考察する。
この設定の主な課題は、拡散サンプリング手順中の中間ガイダンスが未知であり、推定が難しいことである。
本稿では,中間ガイダンスの正確な定式化と,CEP(Contrative Energy Prediction)と呼ばれる新たなトレーニング目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T13:50:41Z) - An Energy-Based Prior for Generative Saliency [62.79775297611203]
本稿では,情報的エネルギーベースモデルを事前分布として採用する,新たな生成正当性予測フレームワークを提案する。
生成サリエンシモデルを用いて,画像から画素単位の不確実性マップを得ることができ,サリエンシ予測におけるモデル信頼度を示す。
実験結果から, エネルギーベース先行モデルを用いた生成塩分率モデルでは, 精度の高い塩分率予測だけでなく, 人間の知覚と整合した信頼性の高い不確実性マップを実現できることが示された。
論文 参考訳(メタデータ) (2022-04-19T10:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。