論文の概要: Towards Controllable Diffusion Models via Reward-Guided Exploration
- arxiv url: http://arxiv.org/abs/2304.07132v1
- Date: Fri, 14 Apr 2023 13:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:27:21.370670
- Title: Towards Controllable Diffusion Models via Reward-Guided Exploration
- Title(参考訳): 逆ガイド探査による可制御拡散モデルに向けて
- Authors: Hengtong Zhang, Tingyang Xu
- Abstract要約: 強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 15.857464051475294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By formulating data samples' formation as a Markov denoising process,
diffusion models achieve state-of-the-art performances in a collection of
tasks. Recently, many variants of diffusion models have been proposed to enable
controlled sample generation. Most of these existing methods either formulate
the controlling information as an input (i.e.,: conditional representation) for
the noise approximator, or introduce a pre-trained classifier in the test-phase
to guide the Langevin dynamic towards the conditional goal. However, the former
line of methods only work when the controlling information can be formulated as
conditional representations, while the latter requires the pre-trained guidance
classifier to be differentiable. In this paper, we propose a novel framework
named RGDM (Reward-Guided Diffusion Model) that guides the training-phase of
diffusion models via reinforcement learning (RL). The proposed training
framework bridges the objective of weighted log-likelihood and maximum entropy
RL, which enables calculating policy gradients via samples from a pay-off
distribution proportional to exponential scaled rewards, rather than from
policies themselves. Such a framework alleviates the high gradient variances
and enables diffusion models to explore for highly rewarded samples in the
reverse process. Experiments on 3D shape and molecule generation tasks show
significant improvements over existing conditional diffusion models.
- Abstract(参考訳): データサンプルの形成をマルコフ発生過程として定式化することにより、拡散モデルはタスクの集合において最先端のパフォーマンスを達成する。
近年, サンプル生成制御が可能な拡散モデルが多数提案されている。
これらの既存の手法のほとんどは、制御情報をノイズ近似器の入力(すなわち条件表現)として定式化したり、テストフェーズで事前訓練された分類器を導入してランジュバンダイナミックを条件目標に向かって導くかのどちらかである。
しかし、前者の手法は制御情報を条件表現として定式化できる場合にのみ機能し、後者は事前訓練された誘導分類器を微分可能である必要がある。
本稿では,強化学習(rl)による拡散モデルのトレーニングフェーズを導くrgdm(reward-guided diffusion model)という新しい枠組みを提案する。
提案したトレーニングフレームワークは,ログの重み付けと最大エントロピーRLの目的を橋渡しする。これは,ポリシ自体からではなく,指数スケールの報酬に比例したペイオフ分布からのサンプルによるポリシ勾配の算出を可能にする。
このようなフレームワークは高勾配のばらつきを緩和し、拡散モデルが逆過程における高い報酬を持つサンプルを探索することを可能にする。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
関連論文リスト
- Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Diffusion Rejection Sampling [13.945372555871414]
Diffusion Rejection Sampling (DiffRS) は、サンプリングされたトランジションカーネルを各タイムステップで真のカーネルと整列するリジェクションサンプリングスキームである。
提案手法は, 各中間段階における試料の品質を評価し, 試料に応じて異なる作業で精製する機構とみなすことができる。
実験により,ベンチマークデータセット上でのDiffRSの最先端性能と高速拡散サンプリングおよび大規模テキスト・画像拡散モデルに対するDiffRSの有効性を実証した。
論文 参考訳(メタデータ) (2024-05-28T07:00:28Z) - Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。
提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。