論文の概要: Scalable Ranked Preference Optimization for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.18013v1
- Date: Wed, 23 Oct 2024 16:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:41.661309
- Title: Scalable Ranked Preference Optimization for Text-to-Image Generation
- Title(参考訳): テキスト・ツー・イメージ生成のためのスケーラブルなランク付け選好最適化
- Authors: Shyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag,
- Abstract要約: 直接優先度最適化(DPO)は、テキスト・ツー・イメージ(T2I)モデルを人間のフィードバックに合わせるための強力なアプローチとして登場した。
本研究では,DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
具体的には、事前訓練された報酬関数を用いてペア画像の好みを生成し、アノテーションプロセスに人間を巻き込む必要をなくす。
- 参考スコア(独自算出の注目度): 76.16285931871948
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a powerful approach to align text-to-image (T2I) models with human feedback. Unfortunately, successful application of DPO to T2I models requires a huge amount of resources to collect and label large-scale datasets, e.g., millions of generated paired images annotated with human preferences. In addition, these human preference datasets can get outdated quickly as the rapid improvements of T2I models lead to higher quality images. In this work, we investigate a scalable approach for collecting large-scale and fully synthetic datasets for DPO training. Specifically, the preferences for paired images are generated using a pre-trained reward function, eliminating the need for involving humans in the annotation process, greatly improving the dataset collection efficiency. Moreover, we demonstrate that such datasets allow averaging predictions across multiple models and collecting ranked preferences as opposed to pairwise preferences. Furthermore, we introduce RankDPO to enhance DPO-based methods using the ranking feedback. Applying RankDPO on SDXL and SD3-Medium models with our synthetically generated preference dataset ``Syn-Pic'' improves both prompt-following (on benchmarks like T2I-Compbench, GenEval, and DPG-Bench) and visual quality (through user studies). This pipeline presents a practical and scalable solution to develop better preference datasets to enhance the performance of text-to-image models.
- Abstract(参考訳): 直接優先度最適化(DPO)は、テキスト・ツー・イメージ(T2I)モデルを人間のフィードバックに合わせるための強力なアプローチとして登場した。
残念なことに、DPOをT2Iモデルに適用するには、大規模なデータセットの収集とラベル付けに膨大なリソースが必要になる。
さらに、T2Iモデルの急速な改善が高品質な画像に繋がるにつれて、これらの人間の嗜好データセットは急速に時代遅れになる可能性がある。
本研究では,DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
具体的には、事前訓練された報酬関数を用いてペア画像の好みを生成し、アノテーションプロセスに人間を巻き込む必要をなくし、データセット収集効率を大幅に改善する。
さらに、これらのデータセットは、複数のモデルにまたがる平均的な予測を可能にし、ペアの選好とは対照的にランク付けされた選好を収集できることを実証する。
さらに、ランキングフィードバックを用いたDPOに基づく手法を強化するために、ランキングDPOを導入する。
SDXL と SD3-Medium モデルに RankDPO を適用することで、合成された好みデータセット ``Syn-Pic'' は、プロンプトフォロー(T2I-Compbench、GenEval、DPG-Bench などのベンチマーク)と視覚的品質(ユーザスタディ)の両方を改善します。
このパイプラインは、テキスト・ツー・イメージ・モデルの性能を高めるために、より良い好みデータセットを開発するための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation [4.054100650064423]
テキスト・ツー・イメージ(T2I)拡散モデルは画像生成において顕著な成功を収めた。
AGFSyncは、AIによる完全なアプローチで、DPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークである。
AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。
論文 参考訳(メタデータ) (2024-03-20T07:31:07Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。