論文の概要: Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control
- arxiv url: http://arxiv.org/abs/2402.15194v2
- Date: Wed, 28 Feb 2024 09:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:31:48.759609
- Title: Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control
- Title(参考訳): エントロピー規則制御による連続時間拡散モデルの微調整
- Authors: Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali,
Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Tommaso Biancalani,
Sergey Levine
- Abstract要約: 拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
- 参考スコア(独自算出の注目度): 54.132297393662654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel at capturing complex data distributions, such as those
of natural images and proteins. While diffusion models are trained to represent
the distribution in the training dataset, we often are more concerned with
other properties, such as the aesthetic quality of the generated images or the
functional properties of generated proteins. Diffusion models can be finetuned
in a goal-directed way by maximizing the value of some reward function (e.g.,
the aesthetic quality of an image). However, these approaches may lead to
reduced sample diversity, significant deviations from the training data
distribution, and even poor sample quality due to the exploitation of an
imperfect reward function. The last issue often occurs when the reward function
is a learned model meant to approximate a ground-truth "genuine" reward, as is
the case in many practical applications. These challenges, collectively termed
"reward collapse," pose a substantial obstacle. To address this reward
collapse, we frame the finetuning problem as entropy-regularized control
against the pretrained diffusion model, i.e., directly optimizing
entropy-enhanced rewards with neural SDEs. We present theoretical and empirical
evidence that demonstrates our framework is capable of efficiently generating
diverse samples with high genuine rewards, mitigating the overoptimization of
imperfect reward models.
- Abstract(参考訳): 拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質や生成されたタンパク質の機能的性質といった他の特性により関心を持っている。
拡散モデルは、ある報酬関数の値(例えば画像の美的品質)を最大化することにより、ゴール指向の方法で微調整することができる。
しかし,これらの手法は,不完全な報酬関数の活用により,サンプルの多様性の低減,トレーニングデータ分布の大幅なずれ,さらにはサンプル品質の低下につながる可能性がある。
最後の問題は、多くの実践的応用の場合と同様に、報酬関数が基底の「ゲヌイネ」報酬を近似する学習モデルであるときにしばしば発生する。
これらの課題は集合的に「後退崩壊」と呼ばれ、大きな障害となる。
この報酬の崩壊に対処するため,我々は,事前学習された拡散モデルに対するエントロピー正規化制御,すなわち神経sdesによるエントロピーエンハンスド報酬の直接最適化として,微調整問題を構成する。
提案手法は,不完全報酬モデルの過剰最適化を緩和し,純正報酬の高い多種多様なサンプルを効率的に生成できることを実証する理論的・実証的証拠を示す。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling [10.159932782892865]
生成モデルは、出力が実際のデータと区別できないユニークなしきい値に達した。
トレーニングと生成の繰り返しループが発生すると、パフォーマンスの深刻な劣化が観察されている。
本稿では,遺伝子変異に触発された簡便かつ効果的な方法として,再利用可能な拡散微細構造(ReDiFine)を提案する。
論文 参考訳(メタデータ) (2024-07-04T13:41:54Z) - Feedback Efficient Online Fine-Tuning of Diffusion Models [52.170384048274364]
提案手法は, 実現可能なサンプルの多様体上で効率的に探索できる新しい強化学習手法である。
本稿では,3つの領域にまたがる実証的検証とともに,後悔の保証を提供する理論的解析を提案する。
論文 参考訳(メタデータ) (2024-02-26T07:24:32Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。