論文の概要: Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
- arxiv url: http://arxiv.org/abs/2503.02357v2
- Date: Wed, 05 Mar 2025 07:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 12:09:25.311761
- Title: Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
- Title(参考訳): Q-Eval-100K:テキスト・ツー・ビジョンコンテンツの品質とアライメントレベルの評価
- Authors: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai,
- Abstract要約: テキスト間コンテンツヒンジを評価するには、視覚的品質とアライメントの2つの重要な側面がある。
テキスト間コンテンツ(Q-EVAL-100K)の視覚的品質とアライメントレベルを評価するためのデータセットを提案する。
本稿では,Q-Eval-Scoreを提案する。Q-Eval-Scoreは視覚的品質とアライメントの両方を評価できる統一モデルであり,長文のアライメントを処理できる。
- 参考スコア(独自算出の注目度): 53.680220823229895
- License:
- Abstract: Evaluating text-to-vision content hinges on two crucial aspects: visual quality and alignment. While significant progress has been made in developing objective models to assess these dimensions, the performance of such models heavily relies on the scale and quality of human annotations. According to Scaling Law, increasing the number of human-labeled instances follows a predictable pattern that enhances the performance of evaluation models. Therefore, we introduce a comprehensive dataset designed to Evaluate Visual quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring the largest collection of human-labeled Mean Opinion Scores (MOS) for the mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image and text-to-video models, with 960K human annotations specifically focused on visual quality and alignment for 100K instances (60K images and 40K videos). Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified model capable of evaluating both visual quality and alignment with special improvements for handling long-text prompt alignment. Experimental results indicate that the proposed Q-Eval-Score achieves superior performance on both visual quality and alignment, with strong generalization capabilities across other benchmarks. These findings highlight the significant value of the Q-EVAL-100K dataset. Data and codes will be available at https://github.com/zzc-1998/Q-Eval.
- Abstract(参考訳): テキスト間コンテンツヒンジの評価は、視覚的品質とアライメントの2つの重要な側面に基づいて行われる。
これらの次元を評価する客観的モデルの開発には大きな進歩があったが、そのようなモデルの性能は人間のアノテーションのスケールと品質に大きく依存している。
Scaling Lawによると、人間ラベル付きインスタンスの数を増やすことは、評価モデルのパフォーマンスを高める予測可能なパターンに従う。
そこで本稿では,テキスト・ツー・ビジョン・コンテンツ(Q-EVAL-100K)の視覚品質とアライメント・レベルを評価するために設計された包括的データセットを紹介する。
Q-EVAL-100Kデータセットには、テキスト・ツー・イメージとテキスト・ツー・ビデオの両方のモデルが含まれており、100Kインスタンス(60Kイメージと40Kビデオ)の視覚的品質とアライメントに特化して960Kのヒューマンアノテーションが提供されている。
このデータセットをコンテキストプロンプトで活用し、視覚的品質とアライメントの両方を評価できる統一モデルQ-Eval-Scoreと、長文プロンプトアライメントを扱うための特別な改善を提案する。
実験結果から,提案したQ-Eval-Scoreは視覚的品質とアライメントの両面において優れた性能を達成し,他のベンチマークにまたがる強力な一般化機能を実現することが示唆された。
これらの結果は,Q-EVAL-100Kデータセットの意義を浮き彫りにした。
データとコードはhttps://github.com/zzc-1998/Q-Eval.comで入手できる。
関連論文リスト
- Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.85110284579424]
画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である
自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。
SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文 参考訳(メタデータ) (2024-06-14T09:18:28Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。