論文の概要: Reward-Directed Score-Based Diffusion Models via q-Learning
- arxiv url: http://arxiv.org/abs/2409.04832v1
- Date: Sat, 7 Sep 2024 13:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:31:31.256293
- Title: Reward-Directed Score-Based Diffusion Models via q-Learning
- Title(参考訳): q-Learningによる逆向きスコアベース拡散モデル
- Authors: Xuefeng Gao, Jiale Zha, Xun Yu Zhou,
- Abstract要約: 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
- 参考スコア(独自算出の注目度): 8.725446812770791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new reinforcement learning (RL) formulation for training continuous-time score-based diffusion models for generative AI to generate samples that maximize reward functions while keeping the generated distributions close to the unknown target data distributions. Different from most existing studies, our formulation does not involve any pretrained model for the unknown score functions of the noise-perturbed data distributions. We present an entropy-regularized continuous-time RL problem and show that the optimal stochastic policy has a Gaussian distribution with a known covariance matrix. Based on this result, we parameterize the mean of Gaussian policies and develop an actor-critic type (little) q-learning algorithm to solve the RL problem. A key ingredient in our algorithm design is to obtain noisy observations from the unknown score function via a ratio estimator. Numerically, we show the effectiveness of our approach by comparing its performance with two state-of-the-art RL methods that fine-tune pretrained models. Finally, we discuss extensions of our RL formulation to probability flow ODE implementation of diffusion models and to conditional diffusion models.
- Abstract(参考訳): 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)式を提案し、未知のターゲットデータ分布に近づきながら、報酬関数を最大化するサンプルを生成する。
多くの既存研究と異なり、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まない。
エントロピー規則化された連続時間RL問題を示し、最適確率ポリシーが既知の共分散行列を持つガウス分布を持つことを示す。
この結果に基づき,ガウス政策の平均値をパラメータ化し,RL問題を解くためにアクター批判型(リトル)q-ラーニングアルゴリズムを開発する。
アルゴリズム設計における鍵となる要素は、比推定器を用いて未知のスコア関数からノイズを観測することである。
提案手法の有効性を2つの最先端RL法と比較し,提案手法の有効性を検証した。
最後に, 拡散モデルの確率フローODE実装と条件付き拡散モデルへのRL定式化の拡張について論じる。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning [9.025671446527694]
人間からのフィードバックからの強化学習(RLHF)は、生成モデルと人間の意図を整合させる上で有望な方向を示す。
本研究では,人間のフィードバックから学習した報酬関数を探索的連続時間制御問題として,微調整拡散モデルのタスクを定式化する。
我々は、異なる方程式の仮定の下で、ポリシー最適化と正規化のための対応する連続時間RL理論を開発する。
論文 参考訳(メタデータ) (2024-09-12T21:12:21Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Convergence Analysis of Discrete Diffusion Model: Exact Implementation
through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。
我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-12T22:26:52Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Exploring Continual Learning of Diffusion Models [24.061072903897664]
拡散モデルの連続学習(CL)特性を評価する。
我々は,拡散の時間経過にまたがる多様な行動を示す,忘れのダイナミクスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-03-27T15:52:14Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。