論文の概要: Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence
- arxiv url: http://arxiv.org/abs/2412.18164v1
- Date: Tue, 24 Dec 2024 04:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:55.901093
- Title: Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence
- Title(参考訳): 微調整拡散モデルの確率制御:最適性、規則性、収束性
- Authors: Yinbin Han, Meisam Razaviyayn, Renyuan Xu,
- Abstract要約: 拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
- 参考スコア(独自算出の注目度): 11.400431211239958
- License:
- Abstract: Diffusion models have emerged as powerful tools for generative modeling, demonstrating exceptional capability in capturing target data distributions from large datasets. However, fine-tuning these massive models for specific downstream tasks, constraints, and human preferences remains a critical challenge. While recent advances have leveraged reinforcement learning algorithms to tackle this problem, much of the progress has been empirical, with limited theoretical understanding. To bridge this gap, we propose a stochastic control framework for fine-tuning diffusion models. Building on denoising diffusion probabilistic models as the pre-trained reference dynamics, our approach integrates linear dynamics control with Kullback-Leibler regularization. We establish the well-posedness and regularity of the stochastic control problem and develop a policy iteration algorithm (PI-FT) for numerical solution. We show that PI-FT achieves global convergence at a linear rate. Unlike existing work that assumes regularities throughout training, we prove that the control and value sequences generated by the algorithm maintain the regularity. Additionally, we explore extensions of our framework to parametric settings and continuous-time formulations.
- Abstract(参考訳): 拡散モデルは生成モデリングの強力なツールとして登場し、大規模なデータセットからターゲットデータ分布をキャプチャする能力を示す。
しかし、これらの大規模なモデルを特定の下流タスク、制約、人間の好みのために微調整することは、依然として重要な課題である。
近年の進歩は強化学習アルゴリズムを利用してこの問題に対処しているが、その進歩の多くは経験的であり、理論的な理解は限られている。
このギャップを埋めるため、我々は微調整拡散モデルのための確率的制御フレームワークを提案する。
事前学習された参照力学として拡散確率モデルを記述した手法では,線形ダイナミクス制御とKulback-Leibler正則化を統合する。
本稿では,確率制御問題の正当性と正則性を確立し,数値解に対するポリシー反復アルゴリズム(PI-FT)を開発した。
PI-FTは線形速度で大域収束することを示す。
トレーニングを通じて規則性を仮定する既存の作業とは異なり、アルゴリズムが生成した制御シーケンスと値シーケンスが規則性を維持することが証明される。
さらに、パラメトリック設定と連続時間定式化へのフレームワークの拡張についても検討する。
関連論文リスト
- Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。
厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。
視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文 参考訳(メタデータ) (2025-02-15T12:28:51Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [9.025671446527694]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Data-driven Modeling and Inference for Bayesian Gaussian Process ODEs
via Double Normalizing Flows [28.62579476863723]
本稿では,ODEベクトル場を再パラメータ化するために正規化フローを導入し,データ駆動の事前分布を導出する。
また, GP ODE の後部推定に正規化フローを適用し, 強平均場仮定の問題を解く。
シミュレーション力学系と実世界の人間の動作データに対するアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2023-09-17T09:28:47Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Combining Gaussian processes and polynomial chaos expansions for
stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。
本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。
最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文 参考訳(メタデータ) (2021-03-09T14:25:08Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。