論文の概要: Scalable Ranked Preference Optimization for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.18013v2
- Date: Wed, 30 Oct 2024 13:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:22:43.413943
- Title: Scalable Ranked Preference Optimization for Text-to-Image Generation
- Title(参考訳): テキスト・ツー・イメージ生成のためのスケーラブルなランク付け選好最適化
- Authors: Shyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag,
- Abstract要約: DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
- 参考スコア(独自算出の注目度): 76.16285931871948
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a powerful approach to align text-to-image (T2I) models with human feedback. Unfortunately, successful application of DPO to T2I models requires a huge amount of resources to collect and label large-scale datasets, e.g., millions of generated paired images annotated with human preferences. In addition, these human preference datasets can get outdated quickly as the rapid improvements of T2I models lead to higher quality images. In this work, we investigate a scalable approach for collecting large-scale and fully synthetic datasets for DPO training. Specifically, the preferences for paired images are generated using a pre-trained reward function, eliminating the need for involving humans in the annotation process, greatly improving the dataset collection efficiency. Moreover, we demonstrate that such datasets allow averaging predictions across multiple models and collecting ranked preferences as opposed to pairwise preferences. Furthermore, we introduce RankDPO to enhance DPO-based methods using the ranking feedback. Applying RankDPO on SDXL and SD3-Medium models with our synthetically generated preference dataset "Syn-Pic" improves both prompt-following (on benchmarks like T2I-Compbench, GenEval, and DPG-Bench) and visual quality (through user studies). This pipeline presents a practical and scalable solution to develop better preference datasets to enhance the performance of text-to-image models.
- Abstract(参考訳): 直接優先度最適化(DPO)は、テキスト・ツー・イメージ(T2I)モデルを人間のフィードバックに合わせるための強力なアプローチとして登場した。
残念なことに、DPOをT2Iモデルに適用するには、大規模なデータセットの収集とラベル付けに膨大なリソースが必要になる。
さらに、T2Iモデルの急速な改善が高品質な画像に繋がるにつれて、これらの人間の嗜好データセットは急速に時代遅れになる可能性がある。
本研究では,DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
具体的には、事前訓練された報酬関数を用いてペア画像の好みを生成し、アノテーションプロセスに人間を巻き込む必要をなくし、データセット収集効率を大幅に改善する。
さらに、これらのデータセットは、複数のモデルにわたる平均的な予測を可能にし、ペアの選好とは対照的にランク付けされた選好を収集できることを実証する。
さらに、ランキングフィードバックを用いたDPOに基づく手法を強化するために、ランキングDPOを導入する。
SDXL と SD3-Medium モデルに RankDPO を適用することで、合成された選好データセット "Syn-Pic" がプロンプトフォロー(T2I-Compbench, GenEval, DPG-Bench などのベンチマーク)と視覚的品質(ユーザスタディ)の両方を改善します。
このパイプラインは、テキスト・ツー・イメージ・モデルの性能を高めるために、より良い好みデータセットを開発するための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。
実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation [5.823702447759938]
AGFSyncは、AI駆動のアプローチでDPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークである。
AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。
論文 参考訳(メタデータ) (2024-03-20T07:31:07Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。