論文の概要: Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control
- arxiv url: http://arxiv.org/abs/2409.08861v2
- Date: Sat, 26 Oct 2024 16:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:09:04.522139
- Title: Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control
- Title(参考訳): 随伴マッチング:メモリレス確率最適制御を用いた微調整流れと拡散生成モデル
- Authors: Carles Domingo-Enrich, Michal Drozdzal, Brian Karrer, Ricky T. Q. Chen,
- Abstract要約: 我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。
提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 26.195547996552406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there have not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.
- Abstract(参考訳): フローマッチング (Flow Matching) や拡散モデル (denoising diffusion model) のような反復的プロセスを通じてサンプルを生成する動的生成モデルは広く用いられているが、これらのモデルを改善するための理論的な手法は、報酬の微調整によって多くは存在していない。
本研究では,確率的最適制御(SOC)として報酬の微調整を行った。
重要なことは、ノイズ変数と生成されたサンプルとの依存性を考慮するために、微調整中に非常に具体的なメモリレスノイズスケジュールを強制する必要があることを証明する。
また、回帰問題としてSOC問題をキャストすることにより、既存のSOCアルゴリズムより優れているAdjoint Matchingというアルゴリズムを提案する。
提案手法は, サンプル多様性を維持しつつ, 従来の微調整法よりも大幅に改善し, 一貫性, リアリズム, 人間の嗜好報酬モデルへの一般化を実現している。
関連論文リスト
- Score-based Generative Models with Adaptive Momentum [40.84399531998246]
変換過程を高速化する適応運動量サンプリング法を提案する。
提案手法は,2倍から5倍の速度で,より忠実な画像/グラフを小さなサンプリングステップで作成できることを示す。
論文 参考訳(メタデータ) (2024-05-22T15:20:27Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Multi-Response Heteroscedastic Gaussian Process Models and Their
Inference [1.52292571922932]
本稿ではヘテロセダスティック共分散関数のモデリングのための新しいフレームワークを提案する。
後部モデルに近似し, 後部予測モデルを容易にするために, 変分推論を用いる。
提案するフレームワークは,幅広いアプリケーションに対して,堅牢で汎用的なツールを提供する。
論文 参考訳(メタデータ) (2023-08-29T15:06:47Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Uncertainty Modelling in Risk-averse Supply Chain Systems Using
Multi-objective Pareto Optimization [0.0]
サプライチェーンモデリングにおける困難なタスクの1つは、不規則な変動に対して堅牢なモデルを構築することである。
我々は、不確実性を扱うためのパレート最適化(Pareto Optimization)という新しい手法を導入し、これらの不確実性のエントロピーをアプリオリ仮定の下で明示的にモデル化することで拘束する。
論文 参考訳(メタデータ) (2020-04-24T21:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。