論文の概要: Learning Generalized Spatial-Temporal Deep Feature Representation for
No-Reference Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2012.13936v1
- Date: Sun, 27 Dec 2020 13:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 22:06:53.427006
- Title: Learning Generalized Spatial-Temporal Deep Feature Representation for
No-Reference Video Quality Assessment
- Title(参考訳): 非参照ビデオ品質評価のための一般化空間時間深部特徴表現の学習
- Authors: Baoliang Chen, Lingyu Zhu, Guo Li, Hongfei Fan, and Shiqi Wang
- Abstract要約: クロスコンテンツ,-解像,-フレームレート品質予測における高一般化機能の実現を目指して,無レファレンス映像品質評価手法を提案する。
特に,空間-時間領域における効果的な特徴表現を学習することにより,映像の質を評価する。
実験の結果,提案手法は, クロスデータセット設定における最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 16.974008463660688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a no-reference video quality assessment method,
aiming to achieve high-generalization capability in cross-content, -resolution
and -frame rate quality prediction. In particular, we evaluate the quality of a
video by learning effective feature representations in spatial-temporal domain.
In the spatial domain, to tackle the resolution and content variations, we
impose the Gaussian distribution constraints on the quality features. The
unified distribution can significantly reduce the domain gap between different
video samples, resulting in a more generalized quality feature representation.
Along the temporal dimension, inspired by the mechanism of visual perception,
we propose a pyramid temporal aggregation module by involving the short-term
and long-term memory to aggregate the frame-level quality. Experiments show
that our method outperforms the state-of-the-art methods on cross-dataset
settings, and achieves comparable performance on intra-dataset configurations,
demonstrating the high-generalization capability of the proposed method.
- Abstract(参考訳): 本研究では,非参照ビデオ品質評価手法を提案し,クロスコンテンツ,解像度,フレームレートの予測において高次化を実現することを目的とする。
特に,空間-時間領域における効果的な特徴表現を学習することにより,映像の質を評価する。
空間領域では,解像度とコンテンツのばらつきに取り組むために,品質特性にガウス分布制約を課す。
統一分布は、異なるビデオサンプル間の領域ギャップを大幅に減らし、より一般化された品質特徴表現をもたらす。
視覚知覚のメカニズムに触発された時間次元に沿って,フレームレベルの品質を集約するために短期記憶と長期記憶を含むピラミッド時間集約モジュールを提案する。
実験により,提案手法は, クロスデータセット設定における最先端の手法よりも優れ, データベース内構成において同等の性能を示し, 提案手法の高一般化能力を示す。
関連論文リスト
- Modular Blind Video Quality Assessment [33.657933680973194]
Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を担っている。
本稿では,モジュール性向上のためのモジュール型BVQAモデルとトレーニング方法を提案する。
論文 参考訳(メタデータ) (2024-02-29T15:44:00Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine
Strategy [16.436012370209845]
非参照品質評価の目的は、高精細参照にアクセスせずに歪みビデオの品質を評価することである。
本研究では,複数の画像品質評価データセットを事前学習した拡張空間認識モジュールと,軽量時間融合モジュールを紹介する。
論文 参考訳(メタデータ) (2024-01-16T17:33:54Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Capturing Video Frame Rate Variations via Entropic Differencing [63.749184706461826]
一般化ガウス分布モデルに基づく新しい統計エントロピー差分法を提案する。
提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関する。
論文 参考訳(メタデータ) (2020-06-19T22:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。