論文の概要: Towards Self-Improvement of Diffusion Models via Group Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.11070v1
- Date: Fri, 16 May 2025 10:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.579863
- Title: Towards Self-Improvement of Diffusion Models via Group Preference Optimization
- Title(参考訳): 群選好最適化による拡散モデルの自己改善に向けて
- Authors: Renjie Chen, Wenfeng Lin, Yichen Zhang, Jiangchuan Wei, Boyuan Liu, Chao Feng, Jiao Ran, Mingyu Guo,
- Abstract要約: グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
- 参考スコア(独自算出の注目度): 10.6096255671291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning text-to-image (T2I) diffusion models with Direct Preference Optimization (DPO) has shown notable improvements in generation quality. However, applying DPO to T2I faces two challenges: the sensitivity of DPO to preference pairs and the labor-intensive process of collecting and annotating high-quality data. In this work, we demonstrate that preference pairs with marginal differences can degrade DPO performance. Since DPO relies exclusively on relative ranking while disregarding the absolute difference of pairs, it may misclassify losing samples as wins, or vice versa. We empirically show that extending the DPO from pairwise to groupwise and incorporating reward standardization for reweighting leads to performance gains without explicit data selection. Furthermore, we propose Group Preference Optimization (GPO), an effective self-improvement method that enhances performance by leveraging the model's own capabilities without requiring external data. Extensive experiments demonstrate that GPO is effective across various diffusion models and tasks. Specifically, combining with widely used computer vision models, such as YOLO and OCR, the GPO improves the accurate counting and text rendering capabilities of the Stable Diffusion 3.5 Medium by 20 percentage points. Notably, as a plug-and-play method, no extra overhead is introduced during inference.
- Abstract(参考訳): 直接優先度最適化(DPO)を用いたテキスト・トゥ・イメージ(T2I)拡散モデルの適用により,生成品質が著しく向上した。
しかし、DPOをT2Iに適用することは、ペアの選好に対するDPOの感度と、高品質なデータを収集し注釈付けする労働集約的なプロセスの2つの課題に直面している。
そこで本研究では,差の少ない選好ペアがDPO性能を低下させることを示した。
DPOはペアの絶対差を無視しながら相対ランクにのみ依存するため、負けたサンプルを勝利として誤分類したり、その逆もする。
我々は、DPOをペアワイズからグループワイズに拡張し、再重み付けのための報酬標準化を取り入れることで、明示的なデータ選択なしに性能向上につながることを実証的に示す。
さらに、外部データを必要とせず、モデル自身の能力を活用して性能を向上させる効果的な自己改善手法であるグループ優先最適化(GPO)を提案する。
広範囲な実験により、GPOは様々な拡散モデルやタスクで有効であることが示された。
具体的には、YOLOやOCRなどの広く使われているコンピュータビジョンモデルと組み合わせることで、GPOは安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
特に、プラグアンドプレイの方法として、推論中に追加のオーバーヘッドは発生しない。
関連論文リスト
- BalancedDPO: Adaptive Multi-Metric Alignment [44.051100004689296]
直接選好最適化(DPO)の新たな拡張である BalancedDPO を提案する。
T2I拡散モデルと人間の嗜好,CLIPスコア,審美的品質など,複数の指標を同時に一致させる。
評価の結果,HealthdDPOは最先端の結果を達成し,すべての主要な指標において既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-03-16T17:06:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。