論文の概要: Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.12824v2
- Date: Tue, 30 May 2023 13:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:02:46.509405
- Title: Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling
in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるExact Energy-Guided Diffusion Smplingのコントラストエネルギー予測
- Authors: Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, Jun Zhu
- Abstract要約: 本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定について考察する。
この設定の主な課題は、拡散サンプリング手順中の中間ガイダンスが未知であり、推定が難しいことである。
本稿では,中間ガイダンスの正確な定式化と,CEP(Contrative Energy Prediction)と呼ばれる新たなトレーニング目標を提案する。
- 参考スコア(独自算出の注目度): 44.880922634512096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guided sampling is a vital approach for applying diffusion models in
real-world tasks that embeds human-defined guidance during the sampling
procedure. This paper considers a general setting where the guidance is defined
by an (unnormalized) energy function. The main challenge for this setting is
that the intermediate guidance during the diffusion sampling procedure, which
is jointly defined by the sampling distribution and the energy function, is
unknown and is hard to estimate. To address this challenge, we propose an exact
formulation of the intermediate guidance as well as a novel training objective
named contrastive energy prediction (CEP) to learn the exact guidance. Our
method is guaranteed to converge to the exact guidance under unlimited model
capacity and data samples, while previous methods can not. We demonstrate the
effectiveness of our method by applying it to offline reinforcement learning
(RL). Extensive experiments on D4RL benchmarks demonstrate that our method
outperforms existing state-of-the-art algorithms. We also provide some examples
of applying CEP for image synthesis to demonstrate the scalability of CEP on
high-dimensional data.
- Abstract(参考訳): ガイドサンプリングは実世界のタスクに拡散モデルを適用するための重要なアプローチであり、サンプリング手順中に人間の定義したガイダンスを埋め込む。
本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定を考える。
この設定の主な課題は、サンプリング分布とエネルギー関数によって共同で定義される拡散サンプリング手順の中間ガイダンスが未知であり、推定が難しいことである。
この課題に対処するために,中間ガイダンスの正確な定式化と,コントラストエネルギー予測(CEP)と呼ばれる新たなトレーニング目標を提案する。
提案手法は,モデル容量とデータサンプルの無制限で正確なガイダンスに収束することが保証されている。
オフライン強化学習(RL)に適用することで,本手法の有効性を示す。
D4RLベンチマークの大規模な実験により、我々の手法は既存の最先端アルゴリズムよりも優れていることが示された。
また,高次元データにおけるCEPのスケーラビリティを示すために,画像合成にCEPを適用する例を示す。
関連論文リスト
- Exploratory Diffusion Policy for Unsupervised Reinforcement Learning [28.413426177336703]
教師なし強化学習は、報酬のない環境で国家や技術を探究することで、エージェントを事前訓練することを目的としている。
既存の方法は、事前訓練されたポリシーの適合性を見落とし、不均一な事前訓練データを扱うのに苦労することが多い。
本研究では,拡散モデルの強い表現能力を利用して探索データに適合する探索拡散政策(EDP)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Learned Reference-based Diffusion Sampling for multi-modal distributions [2.1383136715042417]
本稿では,学習参照に基づく拡散サンプリング(LRDS)について紹介する。
LRDSは、高密度空間領域にあるサンプルの参照拡散モデルを学ぶことによって、2段階で進行する。
LRDSは、様々な難解な分布上の競合するアルゴリズムと比較して、目標分布に関する事前知識を最大限に活用することが実験的に実証された。
論文 参考訳(メタデータ) (2024-10-25T10:23:34Z) - Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。