論文の概要: Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences
- arxiv url: http://arxiv.org/abs/2410.18881v1
- Date: Thu, 24 Oct 2024 16:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:44.655812
- Title: Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences
- Title(参考訳): Diff-Instruct++: 人間の嗜好に合ったワンステップテキスト・ツー・イメージジェネレータモデルを訓練する
- Authors: Weijian Luo,
- Abstract要約: Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: One-step text-to-image generator models offer advantages such as swift inference efficiency, flexible architectures, and state-of-the-art generation performance. In this paper, we study the problem of aligning one-step generator models with human preferences for the first time. Inspired by the success of reinforcement learning using human feedback (RLHF), we formulate the alignment problem as maximizing expected human reward functions while adding an Integral Kullback-Leibler divergence term to prevent the generator from diverging. By overcoming technical challenges, we introduce Diff-Instruct++ (DI++), the first, fast-converging and image data-free human preference alignment method for one-step text-to-image generators. We also introduce novel theoretical insights, showing that using CFG for diffusion distillation is secretly doing RLHF with DI++. Such an interesting finding brings understanding and potential contributions to future research involving CFG. In the experiment sections, we align both UNet-based and DiT-based one-step generators using DI++, which use the Stable Diffusion 1.5 and the PixelArt-$\alpha$ as the reference diffusion processes. The resulting DiT-based one-step text-to-image model achieves a strong Aesthetic Score of 6.19 and an Image Reward of 1.24 on the COCO validation prompt dataset. It also achieves a leading Human preference Score (HPSv2.0) of 28.48, outperforming other open-sourced models such as Stable Diffusion XL, DMD2, SD-Turbo, as well as PixelArt-$\alpha$. Both theoretical contributions and empirical evidence indicate that DI++ is a strong human-preference alignment approach for one-step text-to-image models.
- Abstract(参考訳): ワンステップのテキスト・ツー・イメージジェネレータモデルでは、迅速な推論効率、柔軟なアーキテクチャ、最先端の生成性能などの利点がある。
本稿では,1段階生成モデルと人間の嗜好との整合性の問題について考察する。
人からのフィードバック(RLHF)を用いた強化学習の成功に触発されて、我々はアライメント問題を予測された人間報酬関数の最大化として定式化し、生成器の発散を防止するために積分カル・クルバック・リーブラーの発散項を付加した。
Diff-Instruct++(DI++)は,1ステップのテキスト・ツー・イメージ・ジェネレータのための,高速で高速に収束し,画像のない人間の嗜好アライメント手法である。
また, 拡散蒸留におけるCFGの利用が, DI++ を用いて RLHF を秘密裏に行っていることを示す理論的考察も導入した。
このような興味深い発見は、CFGを含む将来の研究に理解と潜在的貢献をもたらす。
実験セクションでは,Diffusion 1.5 と PixelArt-$\alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果として得られたDiTベースのワンステップのテキスト・ツー・イメージモデルは、COCO検証プロンプトデータセット上で6.19の強い美的スコアと1.24のイメージ・リワードを達成する。
また28.48のHuman preference Score(HPSv2.0)も達成し、Stable Diffusion XL、DMD2、SD-Turbo、PixelArt-$\alpha$など、他のオープンソースモデルよりも優れている。
理論的なコントリビューションと実証的な証拠は、DI++が1ステップのテキスト・ツー・イメージ・モデルにとって強力なヒューマン・リファレンス・アライメント・アプローチであることを示している。
関連論文リスト
- Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models [8.352666876052616]
Diff-Instruct*(DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するためのデータフリーアプローチである。
安定拡散V1.5 を基準拡散モデルとし、DI* は以前の先行モデルを大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with
Time-Decoupled Training and Reusable Coop-Diffusion [45.06392070934473]
PanGu-Drawは資源効率の良いテキスト・画像合成のための新しい潜伏拡散モデルである。
本稿では,様々な事前学習拡散モデルの協調利用を可能にするアルゴリズム「クープ拡散」を紹介する。
Pangu-Drawの実証的検証は、テキスト・ツー・イメージとマルチコントロール画像生成において、その例外的な長所を示している。
論文 参考訳(メタデータ) (2023-12-27T09:21:45Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T10:09:03Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。