Fugu-MT 論文翻訳(概要): ViPO: Visual Preference Optimization at Scale

論文の概要: ViPO: Visual Preference Optimization at Scale

arxiv url: http://arxiv.org/abs/2604.24953v2
Date: Wed, 29 Apr 2026 03:07:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 13:51:54.064336
Title: ViPO: Visual Preference Optimization at Scale
Title（参考訳）: ViPO: スケールでの視覚的嗜好最適化
Authors: Ming Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen,
Abstract要約: 現在のオープンソースの選好データセットには、相反する選好パターンが含まれている。本稿では,データセット特性に基づいてモデル信頼性を動的に調整するPoly-DPOを提案する。 ViPOでは、既存のオープンソースの嗜好データセットでトレーニングされたモデルよりもはるかにパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 16.662106439715238
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.
Abstract（参考訳）: 好みの最適化は視覚生成モデルを改善するために重要であるが、このパラダイムを効果的にスケールする方法はほとんど未解明のままである。現在のオープンソースの選好データセットには競合する選好パターンが含まれており、勝者はいくつかの次元で優れているが、他の領域では性能が劣っている。このようなノイズの多いデータセットをネーティブに最適化することは、好みを学習するのに失敗し、効果的なスケーリングを妨げる。雑音に対するロバスト性を高めるために,DPOの目的を,データセット特性に基づいてモデル信頼度を動的に調整し,多種多様なデータ分布を効果的に学習する多項式項で拡張するPoly-DPOを提案する。バイアスパターン以外にも、既存のデータセットは低解像度、限られた急激な多様性、不均衡な分布に悩まされている。データボトルネックに対処することで、大規模な視覚的嗜好の最適化を容易にするため、5つのカテゴリで1M画像対が1024px、3つのカテゴリで3Kビデオ対が720p+の大規模嗜好データセットViPOを構築した。最先端の生成モデルと多様なプロンプトは、バランスの取れた分布を持つ信頼性の高い選好信号を保証する。注目すべきは、私たちの高品質データセットにPoly-DPOを適用するとき、最適な構成は標準のDPOに収束することです。この収束はデータセットの品質とPoly-DPOの適応性を検証する。高度な最適化は十分なデータ品質で不要になるが、不完全なデータセットには有用である。視覚生成モデルにまたがるアプローチを検証する。 Pick-a-Pic V2のようなノイズの多いデータセットでは、ポリDPOはそれぞれSD1.5とSDXLのGenEval上の拡散DPOよりも6.87と2.32のゲインを達成している。 ViPOでは、既存のオープンソースの嗜好データセットでトレーニングされたモデルよりもはるかにパフォーマンスが向上する。これらの結果は、視覚的嗜好最適化のスケーリングにおいて、アルゴリズムの適応性とデータ品質の両方に対処することが重要であることを確認した。

論文の概要: ViPO: Visual Preference Optimization at Scale

関連論文リスト