論文の概要: ViDA-UGC: Detailed Image Quality Analysis via Visual Distortion Assessment for UGC Images
- arxiv url: http://arxiv.org/abs/2508.12605v1
- Date: Mon, 18 Aug 2025 04:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.962524
- Title: ViDA-UGC: Detailed Image Quality Analysis via Visual Distortion Assessment for UGC Images
- Title(参考訳): ViDA-UGC:UGC画像の視覚歪み評価による詳細な画像品質解析
- Authors: Wenjie Liao, Jieyu Yuan, Yifang Xu, Chunle Guo, Zilong Zhang, Jihong Li, Jiachen Fu, Haotian Fan, Tao Li, Junhui Cui, Chongyi Li,
- Abstract要約: 本研究では,VDA-UGCと呼ばれる画像のための大規模な視覚歪評価インストラクションデータセットを構築した。
このデータセットは、人間の主題アノテーションとChain-of-Thoughtフレームワークを含む歪み指向パイプラインによって構築される。
我々は、ViDA-UGCから対応する6,149の質問応答対を持つ476の画像を選択し、専門家チームを招待して、GPT生成情報の正確性と品質を保証する。
ViDA-UGCおよびCoTフレームワークが画像品質解析能力の維持に有効であることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 27.448161376085658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have introduced a paradigm shift for Image Quality Assessment (IQA) from unexplainable image quality scoring to explainable IQA, demonstrating practical applications like quality control and optimization guidance. However, current explainable IQA methods not only inadequately use the same distortion criteria to evaluate both User-Generated Content (UGC) and AI-Generated Content (AIGC) images, but also lack detailed quality analysis for monitoring image quality and guiding image restoration. In this study, we establish the first large-scale Visual Distortion Assessment Instruction Tuning Dataset for UGC images, termed ViDA-UGC, which comprises 11K images with fine-grained quality grounding, detailed quality perception, and reasoning quality description data. This dataset is constructed through a distortion-oriented pipeline, which involves human subject annotation and a Chain-of-Thought (CoT) assessment framework. This framework guides GPT-4o to generate quality descriptions by identifying and analyzing UGC distortions, which helps capturing rich low-level visual features that inherently correlate with distortion patterns. Moreover, we carefully select 476 images with corresponding 6,149 question answer pairs from ViDA-UGC and invite a professional team to ensure the accuracy and quality of GPT-generated information. The selected and revised data further contribute to the first UGC distortion assessment benchmark, termed ViDA-UGC-Bench. Experimental results demonstrate the effectiveness of the ViDA-UGC and CoT framework for consistently enhancing various image quality analysis abilities across multiple base MLLMs on ViDA-UGC-Bench and Q-Bench, even surpassing GPT-4o.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、画像品質評価(IQA)のパラダイムシフトを、説明不能な画像品質スコアから説明可能なIQAに導入し、品質管理や最適化ガイダンスといった実用的な応用を実証している。
しかし、現在のIQA法は、ユーザ生成コンテンツ(UGC)とAIGC(AIGC)の両方のイメージを評価するために、同じ歪み基準を不適切に使用するだけでなく、画像の品質を監視し、画像復元を導くための詳細な品質分析を欠いている。
本研究では,UGC画像のための大規模な視覚歪評価指導調整データセットViDA-UGCを作成した。
このデータセットは、人間の主題アノテーションとChain-of-Thought (CoT)アセスメントフレームワークを含む歪み指向パイプラインによって構築される。
このフレームワークは、GCの歪みを特定し解析することで、GPT-4oを誘導し、歪みパターンと本質的に相関する豊富な低レベルの視覚的特徴をキャプチャする。
さらに、VDA-UGCから対応する6,149の質問応答対を持つ476の画像を慎重に選択し、専門家チームを招待し、GPT生成情報の正確性と品質を確保する。
選択され修正されたデータは、ViDA-UGC-Benchと呼ばれる最初のUGC歪み評価ベンチマークにさらに貢献する。
実験結果から,VDA-UGC-Bench および Q-Bench において,GPT-4o を超える画像品質解析能力を連続的に向上するための ViDA-UGC および CoT フレームワークの有効性が示された。
関連論文リスト
- A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。
本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文 参考訳(メタデータ) (2025-04-09T17:04:14Z) - Subjective Visual Quality Assessment for High-Fidelity Learning-Based Image Compression [2.296138318128071]
JPEG AIC-3 手法を用いて,JPEG AI 圧縮画像の包括的主観的品質評価を行う。
強化された3重項比較と平易な3重項比較に基づく統一モデルを用いて,JNDに基づく品質尺度を再構築した。
CVVDPの指標は全体の最高性能を達成したが、CVDPを含むほとんどの指標はJPEG AI圧縮画像の品質予測において過度に楽観的であった。
論文 参考訳(メタデータ) (2025-04-07T15:16:58Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Pairwise Comparisons Are All You Need [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では、従来のBIQAの制限を回避すべく設計されたペアワイズ比較フレームワークであるPICNIQを紹介する。
PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - PSCR: Patches Sampling-based Contrastive Regression for AIGC Image
Quality Assessment [1.1744028458220428]
本稿では,様々な画像の差を利用した表現空間の学習のためのコントラスト回帰フレームワークを提案する。
我々は、AGIQA-1K、AGIQA-3K、AIGCIQA2023を含む3つの主要なAIGCIQAデータベースについて広範な実験を行った。
その結果,提案したPSCRフレームワークの導入により,モデル性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-12-10T14:18:53Z) - Helping Visually Impaired People Take Better Quality Pictures [52.03016269364854]
我々は、視覚障害者が共通の技術的歪みの発生を最小限に抑えるためのツールを開発する。
また、ユーザによる品質問題の緩和を支援する、プロトタイプのフィードバックシステムも作成しています。
論文 参考訳(メタデータ) (2023-05-14T04:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。