Fugu-MT 論文翻訳(概要): Towards Controllable Diffusion Models via Reward-Guided Exploration

論文の概要: Towards Controllable Diffusion Models via Reward-Guided Exploration

arxiv url: http://arxiv.org/abs/2304.07132v1
Date: Fri, 14 Apr 2023 13:51:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 13:27:21.370670
Title: Towards Controllable Diffusion Models via Reward-Guided Exploration
Title（参考訳）: 逆ガイド探査による可制御拡散モデルに向けて
Authors: Hengtong Zhang, Tingyang Xu
Abstract要約: 強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。 RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。 3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 15.857464051475294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: By formulating data samples' formation as a Markov denoising process, diffusion models achieve state-of-the-art performances in a collection of tasks. Recently, many variants of diffusion models have been proposed to enable controlled sample generation. Most of these existing methods either formulate the controlling information as an input (i.e.,: conditional representation) for the noise approximator, or introduce a pre-trained classifier in the test-phase to guide the Langevin dynamic towards the conditional goal. However, the former line of methods only work when the controlling information can be formulated as conditional representations, while the latter requires the pre-trained guidance classifier to be differentiable. In this paper, we propose a novel framework named RGDM (Reward-Guided Diffusion Model) that guides the training-phase of diffusion models via reinforcement learning (RL). The proposed training framework bridges the objective of weighted log-likelihood and maximum entropy RL, which enables calculating policy gradients via samples from a pay-off distribution proportional to exponential scaled rewards, rather than from policies themselves. Such a framework alleviates the high gradient variances and enables diffusion models to explore for highly rewarded samples in the reverse process. Experiments on 3D shape and molecule generation tasks show significant improvements over existing conditional diffusion models.
Abstract（参考訳）: データサンプルの形成をマルコフ発生過程として定式化することにより、拡散モデルはタスクの集合において最先端のパフォーマンスを達成する。近年, サンプル生成制御が可能な拡散モデルが多数提案されている。これらの既存の手法のほとんどは、制御情報をノイズ近似器の入力(すなわち条件表現)として定式化したり、テストフェーズで事前訓練された分類器を導入してランジュバンダイナミックを条件目標に向かって導くかのどちらかである。しかし、前者の手法は制御情報を条件表現として定式化できる場合にのみ機能し、後者は事前訓練された誘導分類器を微分可能である必要がある。本稿では,強化学習(rl)による拡散モデルのトレーニングフェーズを導くrgdm(reward-guided diffusion model)という新しい枠組みを提案する。提案したトレーニングフレームワークは,ログの重み付けと最大エントロピーRLの目的を橋渡しする。これは,ポリシ自体からではなく,指数スケールの報酬に比例したペイオフ分布からのサンプルによるポリシ勾配の算出を可能にする。このようなフレームワークは高勾配のばらつきを緩和し、拡散モデルが逆過程における高い報酬を持つサンプルを探索することを可能にする。 3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。

関連論文リスト

DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks [79.50756148780928]
本稿では,事前学習した拡散モデルを用いて識別課題を遂行する問題について検討する。我々は、事前学習されたレイアウト・ツー・イメージ拡散モデルの「反転」により、事前学習した凍結生成拡散モデルの識別能力を分類タスクからより複雑なオブジェクト検出タスクに拡張する。
論文参考訳（メタデータ） (2025-04-24T05:13:27Z)
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-04T17:46:51Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Diffusion Rejection Sampling [13.945372555871414]
Diffusion Rejection Sampling (DiffRS) は、サンプリングされたトランジションカーネルを各タイムステップで真のカーネルと整列するリジェクションサンプリングスキームである。提案手法は, 各中間段階における試料の品質を評価し, 試料に応じて異なる作業で精製する機構とみなすことができる。実験により,ベンチマークデータセット上でのDiffRSの最先端性能と高速拡散サンプリングおよび大規模テキスト・画像拡散モデルに対するDiffRSの有効性を実証した。
論文参考訳（メタデータ） (2024-05-28T07:00:28Z)
Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文参考訳（メタデータ） (2024-05-22T15:04:06Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文参考訳（メタデータ） (2023-10-15T18:44:30Z)
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。 Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。 GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文参考訳（メタデータ） (2023-05-29T04:22:57Z)
Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文参考訳（メタデータ） (2023-04-10T17:54:38Z)
Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文参考訳（メタデータ） (2023-02-28T07:43:00Z)
ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文参考訳（メタデータ） (2023-02-05T12:48:21Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。