論文の概要: Towards Self-Improvement of Diffusion Models via Group Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.11070v1
- Date: Fri, 16 May 2025 10:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.579863
- Title: Towards Self-Improvement of Diffusion Models via Group Preference Optimization
- Title(参考訳): 群選好最適化による拡散モデルの自己改善に向けて
- Authors: Renjie Chen, Wenfeng Lin, Yichen Zhang, Jiangchuan Wei, Boyuan Liu, Chao Feng, Jiao Ran, Mingyu Guo,
- Abstract要約: グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
- 参考スコア(独自算出の注目度): 10.6096255671291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning text-to-image (T2I) diffusion models with Direct Preference Optimization (DPO) has shown notable improvements in generation quality. However, applying DPO to T2I faces two challenges: the sensitivity of DPO to preference pairs and the labor-intensive process of collecting and annotating high-quality data. In this work, we demonstrate that preference pairs with marginal differences can degrade DPO performance. Since DPO relies exclusively on relative ranking while disregarding the absolute difference of pairs, it may misclassify losing samples as wins, or vice versa. We empirically show that extending the DPO from pairwise to groupwise and incorporating reward standardization for reweighting leads to performance gains without explicit data selection. Furthermore, we propose Group Preference Optimization (GPO), an effective self-improvement method that enhances performance by leveraging the model's own capabilities without requiring external data. Extensive experiments demonstrate that GPO is effective across various diffusion models and tasks. Specifically, combining with widely used computer vision models, such as YOLO and OCR, the GPO improves the accurate counting and text rendering capabilities of the Stable Diffusion 3.5 Medium by 20 percentage points. Notably, as a plug-and-play method, no extra overhead is introduced during inference.
- Abstract(参考訳): 直接優先度最適化(DPO)を用いたテキスト・トゥ・イメージ(T2I)拡散モデルの適用により,生成品質が著しく向上した。
しかし、DPOをT2Iに適用することは、ペアの選好に対するDPOの感度と、高品質なデータを収集し注釈付けする労働集約的なプロセスの2つの課題に直面している。
そこで本研究では,差の少ない選好ペアがDPO性能を低下させることを示した。
DPOはペアの絶対差を無視しながら相対ランクにのみ依存するため、負けたサンプルを勝利として誤分類したり、その逆もする。
我々は、DPOをペアワイズからグループワイズに拡張し、再重み付けのための報酬標準化を取り入れることで、明示的なデータ選択なしに性能向上につながることを実証的に示す。
さらに、外部データを必要とせず、モデル自身の能力を活用して性能を向上させる効果的な自己改善手法であるグループ優先最適化(GPO)を提案する。
広範囲な実験により、GPOは様々な拡散モデルやタスクで有効であることが示された。
具体的には、YOLOやOCRなどの広く使われているコンピュータビジョンモデルと組み合わせることで、GPOは安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
特に、プラグアンドプレイの方法として、推論中に追加のオーバーヘッドは発生しない。
関連論文リスト
- Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - BalancedDPO: Adaptive Multi-Metric Alignment [44.051100004689296]
直接選好最適化(DPO)の新たな拡張である BalancedDPO を提案する。
T2I拡散モデルと人間の嗜好,CLIPスコア,審美的品質など,複数の指標を同時に一致させる。
評価の結果,HealthdDPOは最先端の結果を達成し,すべての主要な指標において既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-03-16T17:06:00Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。