Fugu-MT 論文翻訳(概要): Reward-Directed Score-Based Diffusion Models via q-Learning

論文の概要: Reward-Directed Score-Based Diffusion Models via q-Learning

arxiv url: http://arxiv.org/abs/2409.04832v1
Date: Sat, 7 Sep 2024 13:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 20:31:31.256293
Title: Reward-Directed Score-Based Diffusion Models via q-Learning
Title（参考訳）: q-Learningによる逆向きスコアベース拡散モデル
Authors: Xuefeng Gao, Jiale Zha, Xun Yu Zhou,
Abstract要約: 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
参考スコア（独自算出の注目度）: 8.725446812770791
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new reinforcement learning (RL) formulation for training continuous-time score-based diffusion models for generative AI to generate samples that maximize reward functions while keeping the generated distributions close to the unknown target data distributions. Different from most existing studies, our formulation does not involve any pretrained model for the unknown score functions of the noise-perturbed data distributions. We present an entropy-regularized continuous-time RL problem and show that the optimal stochastic policy has a Gaussian distribution with a known covariance matrix. Based on this result, we parameterize the mean of Gaussian policies and develop an actor-critic type (little) q-learning algorithm to solve the RL problem. A key ingredient in our algorithm design is to obtain noisy observations from the unknown score function via a ratio estimator. Numerically, we show the effectiveness of our approach by comparing its performance with two state-of-the-art RL methods that fine-tune pretrained models. Finally, we discuss extensions of our RL formulation to probability flow ODE implementation of diffusion models and to conditional diffusion models.
Abstract（参考訳）: 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)式を提案し、未知のターゲットデータ分布に近づきながら、報酬関数を最大化するサンプルを生成する。多くの既存研究と異なり、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まない。エントロピー規則化された連続時間RL問題を示し、最適確率ポリシーが既知の共分散行列を持つガウス分布を持つことを示す。この結果に基づき,ガウス政策の平均値をパラメータ化し,RL問題を解くためにアクター批判型(リトル)q-ラーニングアルゴリズムを開発する。アルゴリズム設計における鍵となる要素は、比推定器を用いて未知のスコア関数からノイズを観測することである。提案手法の有効性を2つの最先端RL法と比較し,提案手法の有効性を検証した。最後に, 拡散モデルの確率フローODE実装と条件付き拡散モデルへのRL定式化の拡張について論じる。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
A Malliavin calculus approach to score functions in diffusion generative models [5.124031464211652]
我々は、幅広い非線形拡散生成モデルに対するスコア関数の正確な閉形式、式を導出する。我々の結果は微分方程式のより広範なクラスに拡張することができ、スコアベース拡散生成モデルの開発のための新しい方向を開拓することができる。
論文参考訳（メタデータ） (2025-07-08T00:20:57Z)
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-04T17:46:51Z)
Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文参考訳（メタデータ） (2025-02-14T18:32:22Z)
Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning [9.025671446527694]
人間からのフィードバックからの強化学習(RLHF)は、生成モデルと人間の意図を整合させる上で有望な方向を示す。本研究では,人間のフィードバックから学習した報酬関数を探索的連続時間制御問題として,微調整拡散モデルのタスクを定式化する。我々は、異なる方程式の仮定の下で、ポリシー最適化と正規化のための対応する連続時間RL理論を開発する。
論文参考訳（メタデータ） (2024-09-12T21:12:21Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文参考訳（メタデータ） (2024-07-18T17:35:32Z)
Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文参考訳（メタデータ） (2024-05-31T16:18:46Z)
Convergence Analysis of Discrete Diffusion Model: Exact Implementation through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-12T22:26:52Z)
Diffusion-Model-Assisted Supervised Learning of Generative Models for Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。スコアベース拡散モデルを用いてラベル付きデータを生成する。ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文参考訳（メタデータ） (2023-10-22T23:56:19Z)
Exploring Continual Learning of Diffusion Models [24.061072903897664]
拡散モデルの連続学習(CL)特性を評価する。我々は,拡散の時間経過にまたがる多様な行動を示す,忘れのダイナミクスに関する洞察を提供する。
論文参考訳（メタデータ） (2023-03-27T15:52:14Z)
Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文参考訳（メタデータ） (2022-11-30T05:33:29Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。