論文の概要: Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2307.16813v1
- Date: Mon, 31 Jul 2023 16:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:33:04.433176
- Title: Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment
- Title(参考訳): 非参照映像品質評価のためのユーザ生成コンテンツの共存歪みのキャプチャ
- Authors: Kun Yuan, Zishang Kong, Chuanchuan Zheng, Ming Sun, Xing Wen
- Abstract要約: ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
- 参考スコア(独自算出の注目度): 9.883856205077022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Quality Assessment (VQA), which aims to predict the perceptual quality
of a video, has attracted raising attention with the rapid development of
streaming media technology, such as Facebook, TikTok, Kwai, and so on. Compared
with other sequence-based visual tasks (\textit{e.g.,} action recognition), VQA
faces two under-estimated challenges unresolved in User Generated Content (UGC)
videos. \textit{First}, it is not rare that several frames containing serious
distortions (\textit{e.g.,}blocking, blurriness), can determine the perceptual
quality of the whole video, while other sequence-based tasks require more
frames of equal importance for representations. \textit{Second}, the perceptual
quality of a video exhibits a multi-distortion distribution, due to the
differences in the duration and probability of occurrence for various
distortions. In order to solve the above challenges, we propose \textit{Visual
Quality Transformer (VQT)} to extract quality-related sparse features more
efficiently. Methodologically, a Sparse Temporal Attention (STA) is proposed to
sample keyframes by analyzing the temporal correlation between frames, which
reduces the computational complexity from $O(T^2)$ to $O(T \log T)$.
Structurally, a Multi-Pathway Temporal Network (MPTN) utilizes multiple STA
modules with different degrees of sparsity in parallel, capturing co-existing
distortions in a video. Experimentally, VQT demonstrates superior performance
than many \textit{state-of-the-art} methods in three public no-reference VQA
datasets. Furthermore, VQT shows better performance in four full-reference VQA
datasets against widely-adopted industrial algorithms (\textit{i.e.,} VMAF and
AVQT).
- Abstract(参考訳): ビデオの品質評価(VQA)は、ビデオの知覚品質を予測することを目的としており、Facebook、TikTok、Kwaiなどのストリーミングメディア技術の急速な発展によって注目を集めている。
他のシーケンスベースの視覚タスク(\textit{e.g.} アクション認識)と比較すると、VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
\textit{first} では、深刻な歪みを含む複数のフレーム(\textit{e}blocking, blurriness)がビデオ全体の知覚的品質を決定することは珍しくなく、他のシーケンスベースのタスクでは表現に等しく重要なフレームを必要とする。
ビデオの知覚的品質である \textit{second} は、様々な歪みの持続時間と発生確率が異なるため、多変量分布を示す。
上記の課題を解決するために,品質関連スパース機能をより効率的に抽出するために,textit{Visual Quality Transformer (VQT)を提案する。
理論的には、フレーム間の時間的相関を解析することにより、鍵フレームをサンプリングするためにスパース時間注意(STA)を提案し、計算複雑性を$O(T^2)$から$O(T \log T)$に下げる。
構造的には、MPTN(Multi-Pathway Temporal Network)は複数のSTAモジュールを並列に使用し、ビデオ内の既存の歪みをキャプチャする。
実験的に、VQTは3つのパブリックなno-reference VQAデータセットにおいて、多くのtextit{state-of-the-art}メソッドよりも優れたパフォーマンスを示す。
さらに、VQTは、広く採用されている産業用アルゴリズム(VMAFとAVQT)に対して、4つの完全な参照VQAデータセットでより良いパフォーマンスを示す。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Zoom-VQA: Patches, Frames and Clips Integration for Video Quality
Assessment [14.728530703277283]
ビデオアセスメント(VQA)は、映像品質に対する人間の認識をシミュレートすることを目的としている。
ビデオはパッチレベル、フレームレベル、クリップレベルという3つのレベルに分けられます。
異なるレベルの機能を知覚するためのZoom-VQAアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:18:15Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Exploring the Effectiveness of Video Perceptual Representation in Blind
Video Quality Assessment [55.65173181828863]
表現の図形的形態を記述することにより、時間的歪みを測定するための時間的知覚品質指標(TPQI)を提案する。
実験の結果,TPQIは主観的時間的品質を予測する効果的な方法であることがわかった。
論文 参考訳(メタデータ) (2022-07-08T07:30:51Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。