論文の概要: Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.12824v2
- Date: Tue, 30 May 2023 13:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:02:46.509405
- Title: Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるExact Energy-Guided Diffusion Smplingのコントラストエネルギー予測
- Authors: Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, Jun Zhu
- Abstract要約: 本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定について考察する。
この設定の主な課題は、拡散サンプリング手順中の中間ガイダンスが未知であり、推定が難しいことである。
本稿では,中間ガイダンスの正確な定式化と,CEP(Contrative Energy Prediction)と呼ばれる新たなトレーニング目標を提案する。
- 参考スコア(独自算出の注目度): 44.880922634512096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guided sampling is a vital approach for applying diffusion models in
real-world tasks that embeds human-defined guidance during the sampling
procedure. This paper considers a general setting where the guidance is defined
by an (unnormalized) energy function. The main challenge for this setting is
that the intermediate guidance during the diffusion sampling procedure, which
is jointly defined by the sampling distribution and the energy function, is
unknown and is hard to estimate. To address this challenge, we propose an exact
formulation of the intermediate guidance as well as a novel training objective
named contrastive energy prediction (CEP) to learn the exact guidance. Our
method is guaranteed to converge to the exact guidance under unlimited model
capacity and data samples, while previous methods can not. We demonstrate the
effectiveness of our method by applying it to offline reinforcement learning
(RL). Extensive experiments on D4RL benchmarks demonstrate that our method
outperforms existing state-of-the-art algorithms. We also provide some examples
of applying CEP for image synthesis to demonstrate the scalability of CEP on
high-dimensional data.
- Abstract(参考訳): ガイドサンプリングは実世界のタスクに拡散モデルを適用するための重要なアプローチであり、サンプリング手順中に人間の定義したガイダンスを埋め込む。
本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定を考える。
この設定の主な課題は、サンプリング分布とエネルギー関数によって共同で定義される拡散サンプリング手順の中間ガイダンスが未知であり、推定が難しいことである。
この課題に対処するために,中間ガイダンスの正確な定式化と,コントラストエネルギー予測(CEP)と呼ばれる新たなトレーニング目標を提案する。
提案手法は,モデル容量とデータサンプルの無制限で正確なガイダンスに収束することが保証されている。
オフライン強化学習(RL)に適用することで,本手法の有効性を示す。
D4RLベンチマークの大規模な実験により、我々の手法は既存の最先端アルゴリズムよりも優れていることが示された。
また,高次元データにおけるCEPのスケーラビリティを示すために,画像合成にCEPを適用する例を示す。
関連論文リスト
- Learned Reference-based Diffusion Sampling for multi-modal distributions [2.1383136715042417]
本稿では,学習参照に基づく拡散サンプリング(LRDS)について紹介する。
LRDSは、高密度空間領域にあるサンプルの参照拡散モデルを学ぶことによって、2段階で進行する。
LRDSは、様々な難解な分布上の競合するアルゴリズムと比較して、目標分布に関する事前知識を最大限に活用することが実験的に実証された。
論文 参考訳(メタデータ) (2024-10-25T10:23:34Z) - Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。