論文の概要: Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets
- arxiv url: http://arxiv.org/abs/2412.07775v1
- Date: Tue, 10 Dec 2024 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:26.532888
- Title: Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets
- Title(参考訳): 勾配インフォームドGFlowNetによる高効率多様性保存拡散アライメント
- Authors: Zhen Liu, Tim Z. Xiao, Weiyang Liu, Yoshua Bengio, Dinghuai Zhang,
- Abstract要約: Nabla-GFlowNetは、報酬勾配のリッチ信号を利用する最初のGFlowNet手法である。
提案手法は,安定拡散の高速かつ多様かつ事前保存的なアライメントを実現する。
- 参考スコア(独自算出の注目度): 65.42834731617226
- License:
- Abstract: While one commonly trains large diffusion models by collecting datasets on target downstream tasks, it is often desired to align and finetune pretrained diffusion models on some reward functions that are either designed by experts or learned from small-scale datasets. Existing methods for finetuning diffusion models typically suffer from lack of diversity in generated samples, lack of prior preservation, and/or slow convergence in finetuning. Inspired by recent successes in generative flow networks (GFlowNets), a class of probabilistic models that sample with the unnormalized density of a reward function, we propose a novel GFlowNet method dubbed Nabla-GFlowNet (abbreviated as $\nabla$-GFlowNet), the first GFlowNet method that leverages the rich signal in reward gradients, together with an objective called $\nabla$-DB plus its variant residual $\nabla$-DB designed for prior-preserving diffusion alignment. We show that our proposed method achieves fast yet diversity- and prior-preserving alignment of Stable Diffusion, a large-scale text-conditioned image diffusion model, on different realistic reward functions.
- Abstract(参考訳): 一般に、ターゲット下流タスクのデータセットを収集して大規模な拡散モデルを訓練するが、専門家によって設計されたり、小規模のデータセットから学んだりした報酬関数の事前訓練された拡散モデルを調整して微調整することが望まれる。
既存の拡散モデルを微調整する方法は、通常、生成されたサンプルの多様性の欠如、事前保存の欠如、および/または微調整の緩やかな収束に悩まされる。
報奨関数の非正規化密度をサンプリングする確率モデルであるGFlowNet(GFlowNets)の最近の成功に触発されて,報奨勾配のリッチな信号を利用する新しいGFlowNet法(Nabla-GFlowNet)(略して$\nabla$-GFlowNet)を提案する。
提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散を,現実的な報酬関数に基づいて高速かつ多様かつ予め保存したアライメントを実現する。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。