論文の概要: ViPO: Visual Preference Optimization at Scale
- arxiv url: http://arxiv.org/abs/2604.24953v2
- Date: Wed, 29 Apr 2026 03:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:54.064336
- Title: ViPO: Visual Preference Optimization at Scale
- Title(参考訳): ViPO: スケールでの視覚的嗜好最適化
- Authors: Ming Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen,
- Abstract要約: 現在のオープンソースの選好データセットには、相反する選好パターンが含まれている。
本稿では,データセット特性に基づいてモデル信頼性を動的に調整するPoly-DPOを提案する。
ViPOでは、既存のオープンソースの嗜好データセットでトレーニングされたモデルよりもはるかにパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 16.662106439715238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.
- Abstract(参考訳): 好みの最適化は視覚生成モデルを改善するために重要であるが、このパラダイムを効果的にスケールする方法はほとんど未解明のままである。
現在のオープンソースの選好データセットには競合する選好パターンが含まれており、勝者はいくつかの次元で優れているが、他の領域では性能が劣っている。
このようなノイズの多いデータセットをネーティブに最適化することは、好みを学習するのに失敗し、効果的なスケーリングを妨げる。
雑音に対するロバスト性を高めるために,DPOの目的を,データセット特性に基づいてモデル信頼度を動的に調整し,多種多様なデータ分布を効果的に学習する多項式項で拡張するPoly-DPOを提案する。
バイアスパターン以外にも、既存のデータセットは低解像度、限られた急激な多様性、不均衡な分布に悩まされている。
データボトルネックに対処することで、大規模な視覚的嗜好の最適化を容易にするため、5つのカテゴリで1M画像対が1024px、3つのカテゴリで3Kビデオ対が720p+の大規模嗜好データセットViPOを構築した。
最先端の生成モデルと多様なプロンプトは、バランスの取れた分布を持つ信頼性の高い選好信号を保証する。
注目すべきは、私たちの高品質データセットにPoly-DPOを適用するとき、最適な構成は標準のDPOに収束することです。
この収束はデータセットの品質とPoly-DPOの適応性を検証する。高度な最適化は十分なデータ品質で不要になるが、不完全なデータセットには有用である。
視覚生成モデルにまたがるアプローチを検証する。
Pick-a-Pic V2のようなノイズの多いデータセットでは、ポリDPOはそれぞれSD1.5とSDXLのGenEval上の拡散DPOよりも6.87と2.32のゲインを達成している。
ViPOでは、既存のオープンソースの嗜好データセットでトレーニングされたモデルよりもはるかにパフォーマンスが向上する。
これらの結果は、視覚的嗜好最適化のスケーリングにおいて、アルゴリズムの適応性とデータ品質の両方に対処することが重要であることを確認した。
関連論文リスト
- Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Towards Self-Improvement of Diffusion Models via Group Preference Optimization [10.6096255671291]
グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-05-16T10:04:57Z) - Less is More: Improving LLM Alignment via Preference Data Selection [46.9163802899686]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なアプローチである。
DPOトレーニングにおけるデータセットキュレーションのための新たなマージン最大化原理を提案する。
提案手法は反復的DPOにシームレスに拡張され,約3%の改善が達成され,25%のオンラインデータが得られた。
論文 参考訳(メタデータ) (2025-02-20T13:45:17Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。