Fugu-MT 論文翻訳(概要): Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment

論文の概要: Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment

arxiv url: http://arxiv.org/abs/2304.06440v1
Date: Thu, 13 Apr 2023 12:18:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 14:46:25.717213
Title: Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment
Title（参考訳）: Zoom-VQA: ビデオ品質評価のためのパッチ、フレーム、クリップの統合
Authors: Kai Zhao, Kun Yuan, Ming Sun and Xing Wen
Abstract要約: ビデオアセスメント(VQA)は、映像品質に対する人間の認識をシミュレートすることを目的としている。ビデオはパッチレベル、フレームレベル、クリップレベルという3つのレベルに分けられます。異なるレベルの機能を知覚するためのZoom-VQAアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 14.728530703277283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video quality assessment (VQA) aims to simulate the human perception of video quality, which is influenced by factors ranging from low-level color and texture details to high-level semantic content. To effectively model these complicated quality-related factors, in this paper, we decompose video into three levels (\ie, patch level, frame level, and clip level), and propose a novel Zoom-VQA architecture to perceive spatio-temporal features at different levels. It integrates three components: patch attention module, frame pyramid alignment, and clip ensemble strategy, respectively for capturing region-of-interest in the spatial dimension, multi-level information at different feature levels, and distortions distributed over the temporal dimension. Owing to the comprehensive design, Zoom-VQA obtains state-of-the-art results on four VQA benchmarks and achieves 2nd place in the NTIRE 2023 VQA challenge. Notably, Zoom-VQA has outperformed the previous best results on two subsets of LSVQ, achieving 0.8860 (+1.0%) and 0.7985 (+1.9%) of SRCC on the respective subsets. Adequate ablation studies further verify the effectiveness of each component. Codes and models are released in https://github.com/k-zha14/Zoom-VQA.
Abstract（参考訳）: 映像品質評価(VQA)は、低レベルの色やテクスチャの詳細から高レベルのセマンティックコンテンツに至るまで、映像品質の人間の知覚をシミュレートすることを目的としている。本稿では,これらの複雑な品質要因を効果的にモデル化するために,映像を3つのレベル(\ie,パッチレベル,フレームレベル,クリップレベル)に分解し,異なるレベルで時空間特徴を知覚する新しいzoom-vqaアーキテクチャを提案する。パッチアテンションモジュール(patch attention module)、フレームピラミッドアライメント(frame pyramid alignment)、クリップアンサンブル戦略( clip ensemble strategy)の3つのコンポーネントが統合されており、それぞれ、空間的次元における関心領域、異なる特徴レベルでのマルチレベル情報、時間的次元に分散した歪みを捉える。包括的な設計のため、Zoom-VQAは4つのVQAベンチマークで最先端の結果を取得し、NTIRE 2023 VQAチャレンジで2位を獲得した。特に、Zoom-VQA は LSVQ の2つのサブセットで、それぞれのサブセットで 0.8860 (+1.0%) と 0.7985 (+1.9%) を達成している。適切なアブレーション研究は各成分の有効性をさらに検証する。コードとモデルはhttps://github.com/k-zha14/zoom-vqaでリリースされる。

関連論文リスト

VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-14T16:32:11Z)
Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。 VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文参考訳（メタデータ） (2023-07-31T16:29:29Z)
Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文参考訳（メタデータ） (2023-05-22T05:20:23Z)
Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文参考訳（メタデータ） (2022-06-02T12:25:52Z)
Blind VQA on 360{\deg} Video via Progressively Learning from Pixels, Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文参考訳（メタデータ） (2021-11-18T03:45:13Z)
Deep Learning based Full-reference and No-reference Quality Assessment Models for Compressed UGC Videos [34.761412637585266]
フレームワークは、機能抽出モジュール、品質回帰モジュール、品質プーリングモジュールの3つのモジュールで構成されている。特徴抽出モジュールでは、畳み込みニューラルネットワーク(CNN)ネットワークの中間層から特徴を最終品質認識表現に融合する。品質回帰モジュールでは、完全連結(FC)層を用いて品質認識機能をフレームレベルスコアに回帰する。
論文参考訳（メタデータ） (2021-06-02T12:23:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。