論文の概要: Aligning Text-to-Image Diffusion Models with Reward Backpropagation
- arxiv url: http://arxiv.org/abs/2310.03739v5
- Date: Thu, 07 Nov 2024 03:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:59.172992
- Title: Aligning Text-to-Image Diffusion Models with Reward Backpropagation
- Title(参考訳): 逆バックプロパゲーションを用いたテキスト・画像拡散モデルの調整
- Authors: Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki,
- Abstract要約: 本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
- 参考スコア(独自算出の注目度): 62.45086888512723
- License:
- Abstract: Text-to-image diffusion models have recently emerged at the forefront of image generation, powered by very large-scale unsupervised or weakly supervised text-to-image training datasets. Due to their unsupervised training, controlling their behavior in downstream tasks, such as maximizing human-perceived image quality, image-text alignment, or ethical image generation, is difficult. Recent works finetune diffusion models to downstream reward functions using vanilla reinforcement learning, notorious for the high variance of the gradient estimators. In this paper, we propose AlignProp, a method that aligns diffusion models to downstream reward functions using end-to-end backpropagation of the reward gradient through the denoising process. While naive implementation of such backpropagation would require prohibitive memory resources for storing the partial derivatives of modern text-to-image models, AlignProp finetunes low-rank adapter weight modules and uses gradient checkpointing, to render its memory usage viable. We test AlignProp in finetuning diffusion models to various objectives, such as image-text semantic alignment, aesthetics, compressibility and controllability of the number of objects present, as well as their combinations. We show AlignProp achieves higher rewards in fewer training steps than alternatives, while being conceptually simpler, making it a straightforward choice for optimizing diffusion models for differentiable reward functions of interest. Code and Visualization results are available at https://align-prop.github.io/.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは、画像生成の最前線に登場し、非常に大規模な教師なしまたは弱い教師付きテキスト・ツー・イメージのトレーニングデータセットによって実現されている。
教師なしの訓練のため、人間の知覚された画像品質、画像テキストアライメント、倫理的画像生成などの下流作業における行動を制御することは困難である。
近年のバニラ強化学習による下流の報酬関数への拡散モデルの研究は、勾配推定器の高分散で有名である。
本稿では,拡散モデルと下流の報酬関数を協調する手法であるAlignPropを提案する。
このようなバックプロパゲーションの実装は、現代のテキスト・ツー・イメージモデルの部分的なデリバティブを格納するために禁止的なメモリリソースを必要とするが、AlignPropは低ランクのアダプタ重みモジュールを微調整し、グラデーション・チェックポインティングを使用してメモリ使用率を高める。
画像テキストのセマンティックアライメント,美学,オブジェクト数の圧縮性と制御性,およびそれらの組み合わせなど,さまざまな目的に対する微調整拡散モデルでAlignPropをテストする。
また,AlignPropは,学習段階を減らしてより高い報酬を得られるが,概念的にはシンプルであり,興味のある報酬関数に対する拡散モデルを最適化するための簡単な選択であることを示す。
コードと視覚化結果はhttps://align-prop.github.io/.com/で公開されている。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。