Fugu-MT 論文翻訳(概要): Towards Explainable In-the-Wild Video Quality Assessment: a Database and a Language-Prompted Approach

論文の概要: Towards Explainable In-the-Wild Video Quality Assessment: a Database and a Language-Prompted Approach

arxiv url: http://arxiv.org/abs/2305.12726v1
Date: Mon, 22 May 2023 05:20:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 18:19:11.216102
Title: Towards Explainable In-the-Wild Video Quality Assessment: a Database and a Language-Prompted Approach
Title（参考訳）: 説明可能な動画品質評価に向けて:データベースと言語プロンプトアプローチ
Authors: Haoning Wu, Erli Zhang, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin
Abstract要約: われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。具体的には,被験者に対して,各次元に対して正,負,ニューラル選択のラベル付けを依頼する。我々は、視覚言語基盤モデルCLIPを改良し、重要な品質問題をよりよく捉えるための言語プロンプトVQAアプローチであるMaxVQAを提案する。
参考スコア（独自算出の注目度）: 52.07084862209754
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The proliferation of in-the-wild videos has greatly expanded the Video Quality Assessment (VQA) problem. Unlike early definitions that usually focus on limited distortion types, VQA on in-the-wild videos is especially challenging as it could be affected by complicated factors, including various distortions and diverse contents. Though subjective studies have collected overall quality scores for these videos, how the abstract quality scores relate with specific factors is still obscure, hindering VQA methods from more concrete quality evaluations (e.g. sharpness of a video). To solve this problem, we collect over two million opinions on 4,543 in-the-wild videos on 13 dimensions of quality-related factors, including in-capture authentic distortions (e.g. motion blur, noise, flicker), errors introduced by compression and transmission, and higher-level experiences on semantic contents and aesthetic issues (e.g. composition, camera trajectory), to establish the multi-dimensional Maxwell database. Specifically, we ask the subjects to label among a positive, a negative, and a neural choice for each dimension. These explanation-level opinions allow us to measure the relationships between specific quality factors and abstract subjective quality ratings, and to benchmark different categories of VQA algorithms on each dimension, so as to more comprehensively analyze their strengths and weaknesses. Furthermore, we propose the MaxVQA, a language-prompted VQA approach that modifies vision-language foundation model CLIP to better capture important quality issues as observed in our analyses. The MaxVQA can jointly evaluate various specific quality factors and final quality scores with state-of-the-art accuracy on all dimensions, and superb generalization ability on existing datasets. Code and data available at \url{https://github.com/VQAssessment/MaxVQA}.
Abstract（参考訳）: インザ・ワイルド・ビデオの普及は、ビデオ品質評価(vqa)の問題を大きく広げた。通常、限られた歪みタイプにフォーカスする初期の定義とは異なり、VQAの動画は、様々な歪みや多様な内容を含む複雑な要因の影響を受けやすいため、特に難しい。主観的研究はこれらのビデオの全体的な品質スコアを収集しているが、抽象的な品質スコアが特定の要因とどのように関連しているかはいまだ不明であり、より具体的な品質評価(例えばビデオのシャープネス)からVQA手法を妨げている。この問題を解決するために,本研究では,映像品質に関連する13次元の要素について,映像中の歪み(動きのぼやき,ノイズ,フリックなど),圧縮と伝達による誤差,意味的内容や美的問題(合成,カメラの軌跡など)に関する高レベルな経験など,4,543本以上の意見を収集し,多次元のmaxwellデータベースを構築した。具体的には,被験者に対して,各次元に対して正,負,ニューラル選択のラベル付けを依頼する。これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測り、各次元の異なるVQAアルゴリズムのカテゴリをベンチマークすることで、その強みと弱みをより包括的に分析することができる。さらに,視覚言語基盤モデルCLIPを改良したVQA手法であるMaxVQAを提案する。 MaxVQAは、様々な特定の品質要因と最終的な品質スコアを、すべての次元で最先端の精度で共同評価し、既存のデータセット上での一般化能力を超越することができる。コードとデータは \url{https://github.com/VQAssessment/MaxVQA} で入手できる。

関連論文リスト

FineVQ: Fine-Grained User Generated Content Video Quality Assessment [57.51274708410407]
我々は,ファインVDと呼ばれる,複数の次元にまたがる詳細な品質スコアと記述を有する6104の動画からなる,最初の大規模ビデオ品質評価データベースを構築した。画質評価,品質評価,品質評価,品質属性など,ビデオのきめ細かい品質を学習するための細粒度映像品質評価モデルを提案する。提案したFinVQは,精細なビデオ品質結果を生成し,FenVDや他の一般的なVQAデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-26T14:44:47Z)
EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation [21.797332686137203]
本稿では,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリー手法EVQAScoreを紹介する。提案手法は,Kendall相関32.8,Spearman相関42.3,従来のPAC-S++よりも4.7,5.9,動画キャプション評価5.9)。データ選択にEVQAScoreを用いることで、元のデータボリュームのわずか12.5%でSOTA結果を達成し、以前のSOTA手法であるPAC-Sと100%のデータより優れていた。
論文参考訳（メタデータ） (2024-11-11T12:11:36Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
KVQ: Kwai Video Quality Assessment for Short-form Videos [24.5291786508361]
我々は,600本のユーザアップロードショートビデオと3600本のプロセッシングビデオからなる,最初の大規模KVQ(Kleidoscope short Video database for Quality Assessment)を構築した。そこで我々は,KSVQEというビデオ品質評価装置を提案する。これにより,品質決定セマンティクスを大規模視覚言語モデルの内容理解とともに識別することができる。
論文参考訳（メタデータ） (2024-02-11T14:37:54Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)
Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment [14.728530703277283]
ビデオアセスメント(VQA)は、映像品質に対する人間の認識をシミュレートすることを目的としている。ビデオはパッチレベル、フレームレベル、クリップレベルという3つのレベルに分けられます。異なるレベルの機能を知覚するためのZoom-VQAアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-04-13T12:18:15Z)
Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content [54.31355080688127]
YouTube-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。本稿では,2つの個別評価器を,各問題に特化して設計したビューで訓練する手法を提案する。我々の盲目主観的研究は、DOVERの別個の評価器が、各不整合品質問題に対する人間の認識と効果的に一致できることを証明している。
論文参考訳（メタデータ） (2022-11-09T13:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。