論文の概要: Reward-Directed Score-Based Diffusion Models via q-Learning
- arxiv url: http://arxiv.org/abs/2409.04832v2
- Date: Sun, 10 Aug 2025 14:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.080922
- Title: Reward-Directed Score-Based Diffusion Models via q-Learning
- Title(参考訳): q-Learningによる逆向きスコアベース拡散モデル
- Authors: Xuefeng Gao, Jiale Zha, Xun Yu Zhou,
- Abstract要約: 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まない。
本稿では,その性能を2つの最先端RL法と比較することにより,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 8.725446812770791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new reinforcement learning (RL) formulation for training continuous-time score-based diffusion models for generative AI to generate samples that maximize reward functions while keeping the generated distributions close to the unknown target data distributions. Different from most existing studies, ours does not involve any pretrained model for the unknown score functions of the noise-perturbed data distributions, nor does it attempt to learn the score functions. Instead, we formulate the problem as entropy-regularized continuous-time RL and show that the optimal stochastic policy has a Gaussian distribution with a known covariance matrix. Based on this result, we parameterize the mean of Gaussian policies and develop an actor--critic type (little) q-learning algorithm to solve the RL problem. A key ingredient in our algorithm design is to obtain noisy observations from the unknown score function via a ratio estimator. Our formulation can also be adapted to solve pure score-matching and fine-tuning pretrained models. Numerically, we show the effectiveness of our approach by comparing its performance with two state-of-the-art RL methods that fine-tune pretrained models on several generative tasks including high-dimensional image generations. Finally, we discuss extensions of our RL formulation to probability flow ODE implementation of diffusion models and to conditional diffusion models.
- Abstract(参考訳): 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)式を提案し、未知のターゲットデータ分布に近づきながら、報酬関数を最大化するサンプルを生成する。
既存の研究と異なり、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まないし、スコア関数を学習しようともしない。
代わりに、この問題をエントロピー規則化された連続時間 RL として定式化し、最適確率ポリシーが既知の共分散行列を持つガウス分布を持つことを示す。
この結果に基づき,ガウス政策の平均値をパラメータ化し,RL問題を解くためにアクタ批判型(小さい)q-ラーニングアルゴリズムを開発する。
アルゴリズム設計における鍵となる要素は、比推定器を用いて未知のスコア関数からノイズを観測することである。
我々の定式化は、純粋なスコアマッチングと微調整事前学習モデルの解法にも適用できる。
提案手法の有効性を,高次元画像生成を含む複数の生成タスクにおける事前学習モデルを微調整する2つの最先端RL法と比較することにより,提案手法の有効性を示す。
最後に, 拡散モデルの確率フローODE実装と条件付き拡散モデルへのRL定式化の拡張について論じる。
関連論文リスト
- A Malliavin calculus approach to score functions in diffusion generative models [5.124031464211652]
我々は、幅広い非線形拡散生成モデルに対するスコア関数の正確な閉形式、式を導出する。
我々の結果は微分方程式のより広範なクラスに拡張することができ、スコアベース拡散生成モデルの開発のための新しい方向を開拓することができる。
論文 参考訳(メタデータ) (2025-07-08T00:20:57Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。
本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。
我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文 参考訳(メタデータ) (2025-02-14T18:32:22Z) - Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning [9.025671446527694]
人間からのフィードバックからの強化学習(RLHF)は、生成モデルと人間の意図を整合させる上で有望な方向を示す。
本研究では,人間のフィードバックから学習した報酬関数を探索的連続時間制御問題として,微調整拡散モデルのタスクを定式化する。
我々は、異なる方程式の仮定の下で、ポリシー最適化と正規化のための対応する連続時間RL理論を開発する。
論文 参考訳(メタデータ) (2024-09-12T21:12:21Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Convergence Analysis of Discrete Diffusion Model: Exact Implementation
through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。
我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-12T22:26:52Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Exploring Continual Learning of Diffusion Models [24.061072903897664]
拡散モデルの連続学習(CL)特性を評価する。
我々は,拡散の時間経過にまたがる多様な行動を示す,忘れのダイナミクスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-03-27T15:52:14Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。