論文の概要: Zoom-VQA: Patches, Frames and Clips Integration for Video Quality
Assessment
- arxiv url: http://arxiv.org/abs/2304.06440v1
- Date: Thu, 13 Apr 2023 12:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:46:25.717213
- Title: Zoom-VQA: Patches, Frames and Clips Integration for Video Quality
Assessment
- Title(参考訳): Zoom-VQA: ビデオ品質評価のためのパッチ、フレーム、クリップの統合
- Authors: Kai Zhao, Kun Yuan, Ming Sun and Xing Wen
- Abstract要約: ビデオアセスメント(VQA)は、映像品質に対する人間の認識をシミュレートすることを目的としている。
ビデオはパッチレベル、フレームレベル、クリップレベルという3つのレベルに分けられます。
異なるレベルの機能を知覚するためのZoom-VQAアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 14.728530703277283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video quality assessment (VQA) aims to simulate the human perception of video
quality, which is influenced by factors ranging from low-level color and
texture details to high-level semantic content. To effectively model these
complicated quality-related factors, in this paper, we decompose video into
three levels (\ie, patch level, frame level, and clip level), and propose a
novel Zoom-VQA architecture to perceive spatio-temporal features at different
levels. It integrates three components: patch attention module, frame pyramid
alignment, and clip ensemble strategy, respectively for capturing
region-of-interest in the spatial dimension, multi-level information at
different feature levels, and distortions distributed over the temporal
dimension. Owing to the comprehensive design, Zoom-VQA obtains state-of-the-art
results on four VQA benchmarks and achieves 2nd place in the NTIRE 2023 VQA
challenge. Notably, Zoom-VQA has outperformed the previous best results on two
subsets of LSVQ, achieving 0.8860 (+1.0%) and 0.7985 (+1.9%) of SRCC on the
respective subsets. Adequate ablation studies further verify the effectiveness
of each component. Codes and models are released in
https://github.com/k-zha14/Zoom-VQA.
- Abstract(参考訳): 映像品質評価(VQA)は、低レベルの色やテクスチャの詳細から高レベルのセマンティックコンテンツに至るまで、映像品質の人間の知覚をシミュレートすることを目的としている。
本稿では,これらの複雑な品質要因を効果的にモデル化するために,映像を3つのレベル(\ie,パッチレベル,フレームレベル,クリップレベル)に分解し,異なるレベルで時空間特徴を知覚する新しいzoom-vqaアーキテクチャを提案する。
パッチアテンションモジュール(patch attention module)、フレームピラミッドアライメント(frame pyramid alignment)、クリップアンサンブル戦略( clip ensemble strategy)の3つのコンポーネントが統合されており、それぞれ、空間的次元における関心領域、異なる特徴レベルでのマルチレベル情報、時間的次元に分散した歪みを捉える。
包括的な設計のため、Zoom-VQAは4つのVQAベンチマークで最先端の結果を取得し、NTIRE 2023 VQAチャレンジで2位を獲得した。
特に、Zoom-VQA は LSVQ の2つのサブセットで、それぞれのサブセットで 0.8860 (+1.0%) と 0.7985 (+1.9%) を達成している。
適切なアブレーション研究は各成分の有効性をさらに検証する。
コードとモデルはhttps://github.com/k-zha14/zoom-vqaでリリースされる。
関連論文リスト
- Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Evaluating Point Cloud from Moving Camera Videos: A No-Reference Metric [58.309735075960745]
本稿では,ビデオ品質評価(VQA)手法を用いて,ポイントクラウド品質評価(PCQA)タスクの処理方法について検討する。
捉えたビデオは、いくつかの円形の経路を通して、点雲の周りでカメラを回転させて生成する。
トレーニング可能な2D-CNNモデルと事前学習された3D-CNNモデルを用いて、選択したキーフレームとビデオクリップから空間的・時間的品質認識特徴を抽出する。
論文 参考訳(メタデータ) (2022-08-30T08:59:41Z) - PeQuENet: Perceptual Quality Enhancement of Compressed Video with
Adaptation- and Attention-based Network [27.375830262287163]
本稿では,圧縮ビデオの知覚品質を高めるために,GAN(Generative Adversarial Network)フレームワークを提案する。
我々のフレームワークは、単一のモデルにおける異なる量子化パラメータ(QP)への注意と適応を含む。
実験により,提案したPeQuENetの圧縮圧縮画質向上アルゴリズムと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-16T02:49:28Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Blind VQA on 360{\deg} Video via Progressively Learning from Pixels,
Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。
本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。
画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文 参考訳(メタデータ) (2021-11-18T03:45:13Z) - Deep Learning based Full-reference and No-reference Quality Assessment
Models for Compressed UGC Videos [34.761412637585266]
フレームワークは、機能抽出モジュール、品質回帰モジュール、品質プーリングモジュールの3つのモジュールで構成されている。
特徴抽出モジュールでは、畳み込みニューラルネットワーク(CNN)ネットワークの中間層から特徴を最終品質認識表現に融合する。
品質回帰モジュールでは、完全連結(FC)層を用いて品質認識機能をフレームレベルスコアに回帰する。
論文 参考訳(メタデータ) (2021-06-02T12:23:16Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。