論文の概要: HPSv3: Towards Wide-Spectrum Human Preference Score
- arxiv url: http://arxiv.org/abs/2508.03789v1
- Date: Tue, 05 Aug 2025 17:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.400095
- Title: HPSv3: Towards Wide-Spectrum Human Preference Score
- Title(参考訳): HPSv3: ワイドスペクトルのヒューマン嗜好スコアを目指して
- Authors: Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li,
- Abstract要約: 我々は、1.08Mのテキストイメージペアと1.17Mの注釈付きペアワイズ比較を統合した、初めてのワイドスペクトルヒトの嗜好データセットをリリースする。
微粒なランク付けのための不確実性認識ランキング損失を用いて訓練されたVLMに基づく選好モデルを提案する。
さらに,余分なデータなしで品質を向上させる反復画像改善法であるChain-of-Human-Preference (CoHP)を提案する。
- 参考スコア(独自算出の注目度): 35.108959799842694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating text-to-image generation models requires alignment with human perception, yet existing human-centric metrics are constrained by limited data coverage, suboptimal feature extraction, and inefficient loss functions. To address these challenges, we introduce Human Preference Score v3 (HPSv3). (1) We release HPDv3, the first wide-spectrum human preference dataset integrating 1.08M text-image pairs and 1.17M annotated pairwise comparisons from state-of-the-art generative models and low to high-quality real-world images. (2) We introduce a VLM-based preference model trained using an uncertainty-aware ranking loss for fine-grained ranking. Besides, we propose Chain-of-Human-Preference (CoHP), an iterative image refinement method that enhances quality without extra data, using HPSv3 to select the best image at each step. Extensive experiments demonstrate that HPSv3 serves as a robust metric for wide-spectrum image evaluation, and CoHP offers an efficient and human-aligned approach to improve image generation quality. The code and dataset are available at the HPSv3 Homepage.
- Abstract(参考訳): テキストから画像への生成モデルを評価するには、人間の知覚と一致する必要があるが、既存の人間中心のメトリクスは、限られたデータカバレッジ、最適でない特徴抽出、非効率な損失関数によって制約される。
これらの課題に対処するために、Human Preference Score v3(HPSv3)を紹介する。
1)HPDv3は、1.08Mのテキストイメージペアと1.17Mの注釈付きペア比較を、最先端の生成モデルと低品質で高品質な実世界の画像から統合した初めてのワイドスペクトルヒトの嗜好データセットである。
2) 微粒なランク付けのための不確実性認識ランキング損失を用いて訓練されたVLMに基づく選好モデルを提案する。
さらに、HPSv3を用いて各ステップで最適な画像を選択することで、余分なデータなしで品質を向上させる反復画像改善手法であるChain-of-Human-Preference (CoHP)を提案する。
大規模な実験により、HPSv3は広帯域画像評価の堅牢な指標として機能し、CoHPは画像生成品質を改善するための効率的で人為的なアプローチを提供する。
コードとデータセットはHPSv3 Homepageで公開されている。
関連論文リスト
- Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。
このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。
また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:48:40Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [65.91490997921859]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化(UAO)フレームワークを提案する。
このフレームワークは、事前訓練されたモデルの事前情報を保持し、関節の不確実性を用いて過度に適合する問題を緩和する。
我々のアプローチは、Human3.6Mの5.5%という大きなマージンで、これまでの最高の結果を上回っています。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space [43.368963897752664]
この研究は、ヒューマン・ポースと形状推定の問題に対処する新しいパラダイムを導入している。
身体モデルパラメータを予測する代わりに、提案した離散潜在表現を予測することに重点を置いている。
提案モデルであるVQ-HPSはメッシュの離散潜在表現を予測する。
論文 参考訳(メタデータ) (2023-12-13T17:08:38Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T10:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。