論文の概要: Aligning Text-to-Image Diffusion Models with Reward Backpropagation
- arxiv url: http://arxiv.org/abs/2310.03739v1
- Date: Thu, 5 Oct 2023 17:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 13:09:19.612277
- Title: Aligning Text-to-Image Diffusion Models with Reward Backpropagation
- Title(参考訳): 逆バックプロパゲーションを用いたテキスト・画像拡散モデルの調整
- Authors: Mihir Prabhudesai and Anirudh Goyal and Deepak Pathak and Katerina
Fragkiadaki
- Abstract要約: 本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
- 参考スコア(独自算出の注目度): 68.22308781717037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have recently emerged at the forefront of
image generation, powered by very large-scale unsupervised or weakly supervised
text-to-image training datasets. Due to their unsupervised training,
controlling their behavior in downstream tasks, such as maximizing
human-perceived image quality, image-text alignment, or ethical image
generation, is difficult. Recent works finetune diffusion models to downstream
reward functions using vanilla reinforcement learning, notorious for the high
variance of the gradient estimators. In this paper, we propose AlignProp, a
method that aligns diffusion models to downstream reward functions using
end-to-end backpropagation of the reward gradient through the denoising
process. While naive implementation of such backpropagation would require
prohibitive memory resources for storing the partial derivatives of modern
text-to-image models, AlignProp finetunes low-rank adapter weight modules and
uses gradient checkpointing, to render its memory usage viable. We test
AlignProp in finetuning diffusion models to various objectives, such as
image-text semantic alignment, aesthetics, compressibility and controllability
of the number of objects present, as well as their combinations. We show
AlignProp achieves higher rewards in fewer training steps than alternatives,
while being conceptually simpler, making it a straightforward choice for
optimizing diffusion models for differentiable reward functions of interest.
Code and Visualization results are available at https://align-prop.github.io/.
- Abstract(参考訳): テキストから画像への拡散モデルは、画像生成の最前線で最近登場しており、非常に大規模な教師なしまたは弱い教師なしのテキストから画像へのトレーニングデータセットを使用している。
教師なしの訓練のため、人間の知覚された画像品質、画像テキストアライメント、倫理的画像生成などの下流作業における行動を制御することは困難である。
近年のバニラ強化学習による下流の報酬関数への拡散モデルの研究は、勾配推定器の高分散で有名である。
本稿では,報奨勾配のエンド・ツー・エンドバックプロパゲーションを用いて,拡散モデルを下流報酬関数に整合させる手法であるアライメントプロップを提案する。
このようなバックプロパゲーションのナイーブな実装では、現代のテキストから画像へのモデルの部分的な派生を格納するための制限的なメモリリソースが必要となるが、allenpropは低ランクのアダプタ重みモジュールを微調整し、グラデーションチェックポイントを使用する。
画像テキストのセマンティックアライメント,美学,オブジェクト数の圧縮性と制御性,およびそれらの組み合わせなど,さまざまな目的に対する微調整拡散モデルでAlignPropをテストする。
また,AlignPropは,学習段階を減らしてより高い報酬を得られるが,概念的にはシンプルであり,興味のある報酬関数に対する拡散モデルを最適化するための簡単な選択であることを示す。
コードと視覚化の結果はhttps://align-prop.github.io/で確認できる。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。