論文の概要: HVS Revisited: A Comprehensive Video Quality Assessment Framework
- arxiv url: http://arxiv.org/abs/2210.04158v1
- Date: Sun, 9 Oct 2022 03:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 19:06:39.141161
- Title: HVS Revisited: A Comprehensive Video Quality Assessment Framework
- Title(参考訳): hvs revisited: 総合的なビデオ品質評価フレームワーク
- Authors: Ao-Xiang Zhang, Yuan-Gen Wang, Weixuan Tang, Leida Li, Sam Kwong
- Abstract要約: 本稿では,5つの代表特性を持つHVSを再検討し,さらにその接続を再構築する。
The revisited HVS, a no-reference VQA framework called HVS-5M (NRVQA framework with five modulessimulated HVS with five characteristics)。
HVS-5Mは最先端のVQA法よりも優れていた。
- 参考スコア(独自算出の注目度): 74.86068610617345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video quality is a primary concern for video service providers. In recent
years, the techniques of video quality assessment (VQA) based on deep
convolutional neural networks (CNNs) have been developed rapidly. Although
existing works attempt to introduce the knowledge of the human visual system
(HVS) into VQA, there still exhibit limitations that prevent the full
exploitation of HVS, including an incomplete model by few characteristics and
insufficient connections among these characteristics. To overcome these
limitations, this paper revisits HVS with five representative characteristics,
and further reorganizes their connections. Based on the revisited HVS, a
no-reference VQA framework called HVS-5M (NRVQA framework with five modules
simulating HVS with five characteristics) is proposed. It works in a
domain-fusion design paradigm with advanced network structures. On the side of
the spatial domain, the visual saliency module applies SAMNet to obtain a
saliency map. And then, the content-dependency and the edge masking modules
respectively utilize ConvNeXt to extract the spatial features, which have been
attentively weighted by the saliency map for the purpose of highlighting those
regions that human beings may be interested in. On the other side of the
temporal domain, to supplement the static spatial features, the motion
perception module utilizes SlowFast to obtain the dynamic temporal features.
Besides, the temporal hysteresis module applies TempHyst to simulate the memory
mechanism of human beings, and comprehensively evaluates the quality score
according to the fusion features from the spatial and temporal domains.
Extensive experiments show that our HVS-5M outperforms the state-of-the-art VQA
methods. Ablation studies are further conducted to verify the effectiveness of
each module towards the proposed framework.
- Abstract(参考訳): ビデオ品質は、ビデオサービスプロバイダにとって主要な関心事である。
近年,深層畳み込みニューラルネットワーク(CNN)に基づく映像品質評価(VQA)技術が急速に発展している。
既存の研究は人間の視覚システム(HVS)の知識をVQAに導入しようと試みているが、いくつかの特徴による不完全なモデルやそれらの特徴間の不完全な接続を含む、HVSの完全利用を防ぐ限界がまだ残っている。
これらの制約を克服するため,本論文では5つの代表的特徴を持つhvsを再検討し,それらの接続をさらに再編成する。
再訪したhvsに基づいて、hvs-5m(5つのモジュールでhvsをシミュレートする5つのモジュールを持つnrvqaフレームワーク)と呼ばれる参照なしvqaフレームワークが提案されている。
高度なネットワーク構造を持つドメイン融合設計パラダイムで動作する。
空間領域の側では、視覚サリエンシーモジュールがサネットを適用してサリエンシーマップを得る。
そして、コンテンツ依存モジュールとエッジマスクモジュールは、それぞれconvnextを使用して、人間の関心のある領域を強調するために、サリエンシーマップによって注意深く重み付けされた空間的特徴を抽出する。
時間領域の反対側では、静的な空間的特徴を補うために、モーション知覚モジュールはSlowFastを使用して動的時間的特徴を得る。
また、テンポラルヒステリシスモジュールは、人間の記憶機構をシミュレートするためにテンポラルヒステリシスを適用し、空間領域と時間領域の融合特性に応じて品質スコアを包括的に評価する。
HVS-5Mは最先端のVQA法よりも優れていた。
さらに,提案フレームワークに対する各モジュールの有効性を検証するためのアブレーション研究を行った。
関連論文リスト
- Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Exploring the Effectiveness of Video Perceptual Representation in Blind
Video Quality Assessment [55.65173181828863]
表現の図形的形態を記述することにより、時間的歪みを測定するための時間的知覚品質指標(TPQI)を提案する。
実験の結果,TPQIは主観的時間的品質を予測する効果的な方法であることがわかった。
論文 参考訳(メタデータ) (2022-07-08T07:30:51Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering [15.017443876780286]
VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。
われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
論文 参考訳(メタデータ) (2021-09-27T15:06:10Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Deep Learning based Full-reference and No-reference Quality Assessment
Models for Compressed UGC Videos [34.761412637585266]
フレームワークは、機能抽出モジュール、品質回帰モジュール、品質プーリングモジュールの3つのモジュールで構成されている。
特徴抽出モジュールでは、畳み込みニューラルネットワーク(CNN)ネットワークの中間層から特徴を最終品質認識表現に融合する。
品質回帰モジュールでは、完全連結(FC)層を用いて品質認識機能をフレームレベルスコアに回帰する。
論文 参考訳(メタデータ) (2021-06-02T12:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。