論文の概要: Towards Explainable In-the-Wild Video Quality Assessment: a Database and
a Language-Prompted Approach
- arxiv url: http://arxiv.org/abs/2305.12726v1
- Date: Mon, 22 May 2023 05:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:19:11.216102
- Title: Towards Explainable In-the-Wild Video Quality Assessment: a Database and
a Language-Prompted Approach
- Title(参考訳): 説明可能な動画品質評価に向けて:データベースと言語プロンプトアプローチ
- Authors: Haoning Wu, Erli Zhang, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan
Wang, Wenxiu Sun, Qiong Yan, Weisi Lin
- Abstract要約: われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には,被験者に対して,各次元に対して正,負,ニューラル選択のラベル付けを依頼する。
我々は、視覚言語基盤モデルCLIPを改良し、重要な品質問題をよりよく捉えるための言語プロンプトVQAアプローチであるMaxVQAを提案する。
- 参考スコア(独自算出の注目度): 52.07084862209754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of in-the-wild videos has greatly expanded the Video
Quality Assessment (VQA) problem. Unlike early definitions that usually focus
on limited distortion types, VQA on in-the-wild videos is especially
challenging as it could be affected by complicated factors, including various
distortions and diverse contents. Though subjective studies have collected
overall quality scores for these videos, how the abstract quality scores relate
with specific factors is still obscure, hindering VQA methods from more
concrete quality evaluations (e.g. sharpness of a video). To solve this
problem, we collect over two million opinions on 4,543 in-the-wild videos on 13
dimensions of quality-related factors, including in-capture authentic
distortions (e.g. motion blur, noise, flicker), errors introduced by
compression and transmission, and higher-level experiences on semantic contents
and aesthetic issues (e.g. composition, camera trajectory), to establish the
multi-dimensional Maxwell database. Specifically, we ask the subjects to label
among a positive, a negative, and a neural choice for each dimension. These
explanation-level opinions allow us to measure the relationships between
specific quality factors and abstract subjective quality ratings, and to
benchmark different categories of VQA algorithms on each dimension, so as to
more comprehensively analyze their strengths and weaknesses. Furthermore, we
propose the MaxVQA, a language-prompted VQA approach that modifies
vision-language foundation model CLIP to better capture important quality
issues as observed in our analyses. The MaxVQA can jointly evaluate various
specific quality factors and final quality scores with state-of-the-art
accuracy on all dimensions, and superb generalization ability on existing
datasets. Code and data available at
\url{https://github.com/VQAssessment/MaxVQA}.
- Abstract(参考訳): インザ・ワイルド・ビデオの普及は、ビデオ品質評価(vqa)の問題を大きく広げた。
通常、限られた歪みタイプにフォーカスする初期の定義とは異なり、VQAの動画は、様々な歪みや多様な内容を含む複雑な要因の影響を受けやすいため、特に難しい。
主観的研究はこれらのビデオの全体的な品質スコアを収集しているが、抽象的な品質スコアが特定の要因とどのように関連しているかはいまだ不明であり、より具体的な品質評価(例えばビデオのシャープネス)からVQA手法を妨げている。
この問題を解決するために,本研究では,映像品質に関連する13次元の要素について,映像中の歪み(動きのぼやき,ノイズ,フリックなど),圧縮と伝達による誤差,意味的内容や美的問題(合成,カメラの軌跡など)に関する高レベルな経験など,4,543本以上の意見を収集し,多次元のmaxwellデータベースを構築した。
具体的には,被験者に対して,各次元に対して正,負,ニューラル選択のラベル付けを依頼する。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測り、各次元の異なるVQAアルゴリズムのカテゴリをベンチマークすることで、その強みと弱みをより包括的に分析することができる。
さらに,視覚言語基盤モデルCLIPを改良したVQA手法であるMaxVQAを提案する。
MaxVQAは、様々な特定の品質要因と最終的な品質スコアを、すべての次元で最先端の精度で共同評価し、既存のデータセット上での一般化能力を超越することができる。
コードとデータは \url{https://github.com/VQAssessment/MaxVQA} で入手できる。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - KVQ: Kwai Video Quality Assessment for Short-form Videos [24.5291786508361]
我々は,600本のユーザアップロードショートビデオと3600本のプロセッシングビデオからなる,最初の大規模KVQ(Kleidoscope short Video database for Quality Assessment)を構築した。
そこで我々は,KSVQEというビデオ品質評価装置を提案する。これにより,品質決定セマンティクスを大規模視覚言語モデルの内容理解とともに識別することができる。
論文 参考訳(メタデータ) (2024-02-11T14:37:54Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Zoom-VQA: Patches, Frames and Clips Integration for Video Quality
Assessment [14.728530703277283]
ビデオアセスメント(VQA)は、映像品質に対する人間の認識をシミュレートすることを目的としている。
ビデオはパッチレベル、フレームレベル、クリップレベルという3つのレベルに分けられます。
異なるレベルの機能を知覚するためのZoom-VQAアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:18:15Z) - Disentangling Aesthetic and Technical Effects for Video Quality
Assessment of User Generated Content [54.31355080688127]
YouTube-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。
本稿では,2つの個別評価器を,各問題に特化して設計したビューで訓練する手法を提案する。
我々の盲目主観的研究は、DOVERの別個の評価器が、各不整合品質問題に対する人間の認識と効果的に一致できることを証明している。
論文 参考訳(メタデータ) (2022-11-09T13:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。