論文の概要: Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.12824v2
- Date: Tue, 30 May 2023 13:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:02:46.509405
- Title: Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるExact Energy-Guided Diffusion Smplingのコントラストエネルギー予測
- Authors: Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, Jun Zhu
- Abstract要約: 本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定について考察する。
この設定の主な課題は、拡散サンプリング手順中の中間ガイダンスが未知であり、推定が難しいことである。
本稿では,中間ガイダンスの正確な定式化と,CEP(Contrative Energy Prediction)と呼ばれる新たなトレーニング目標を提案する。
- 参考スコア(独自算出の注目度): 44.880922634512096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guided sampling is a vital approach for applying diffusion models in
real-world tasks that embeds human-defined guidance during the sampling
procedure. This paper considers a general setting where the guidance is defined
by an (unnormalized) energy function. The main challenge for this setting is
that the intermediate guidance during the diffusion sampling procedure, which
is jointly defined by the sampling distribution and the energy function, is
unknown and is hard to estimate. To address this challenge, we propose an exact
formulation of the intermediate guidance as well as a novel training objective
named contrastive energy prediction (CEP) to learn the exact guidance. Our
method is guaranteed to converge to the exact guidance under unlimited model
capacity and data samples, while previous methods can not. We demonstrate the
effectiveness of our method by applying it to offline reinforcement learning
(RL). Extensive experiments on D4RL benchmarks demonstrate that our method
outperforms existing state-of-the-art algorithms. We also provide some examples
of applying CEP for image synthesis to demonstrate the scalability of CEP on
high-dimensional data.
- Abstract(参考訳): ガイドサンプリングは実世界のタスクに拡散モデルを適用するための重要なアプローチであり、サンプリング手順中に人間の定義したガイダンスを埋め込む。
本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定を考える。
この設定の主な課題は、サンプリング分布とエネルギー関数によって共同で定義される拡散サンプリング手順の中間ガイダンスが未知であり、推定が難しいことである。
この課題に対処するために,中間ガイダンスの正確な定式化と,コントラストエネルギー予測(CEP)と呼ばれる新たなトレーニング目標を提案する。
提案手法は,モデル容量とデータサンプルの無制限で正確なガイダンスに収束することが保証されている。
オフライン強化学習(RL)に適用することで,本手法の有効性を示す。
D4RLベンチマークの大規模な実験により、我々の手法は既存の最先端アルゴリズムよりも優れていることが示された。
また,高次元データにおけるCEPのスケーラビリティを示すために,画像合成にCEPを適用する例を示す。
関連論文リスト
- Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Observation-Guided Diffusion Probabilistic Models [45.60819186624553]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散モデルを提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強い拡散モデルベースラインに対する多種多様な推論手法を用いた学習アルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Provably Efficient Bayesian Optimization with Unbiased Gaussian Process
Hyperparameter Estimation [52.035894372374756]
目的関数の大域的最適値にサブ線形収束できる新しいBO法を提案する。
本手法では,BOプロセスにランダムなデータポイントを追加するために,マルチアームバンディット法 (EXP3) を用いる。
提案手法は, 様々な合成および実世界の問題に対して, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-12T03:35:45Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Gradient-Guided Importance Sampling for Learning Binary Energy-Based
Models [46.87187776084161]
本研究では,高次元データからエネルギーベースモデル(EBM)を学習するために,勾配誘導重要度サンプリング(RMwGGIS)との比整合を提案する。
合成離散データを用いた密度モデリング実験,グラフ生成,Isingモデルの訓練を行い,提案手法の評価を行った。
提案手法は,比例マッチングの限界を著しく軽減し,実際により効果的に実行し,高次元問題にスケールすることができる。
論文 参考訳(メタデータ) (2022-10-11T20:52:48Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。