Fugu-MT 論文翻訳(概要): HVS Revisited: A Comprehensive Video Quality Assessment Framework

論文の概要: HVS Revisited: A Comprehensive Video Quality Assessment Framework

arxiv url: http://arxiv.org/abs/2210.04158v1
Date: Sun, 9 Oct 2022 03:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 19:06:39.141161
Title: HVS Revisited: A Comprehensive Video Quality Assessment Framework
Title（参考訳）: hvs revisited: 総合的なビデオ品質評価フレームワーク
Authors: Ao-Xiang Zhang, Yuan-Gen Wang, Weixuan Tang, Leida Li, Sam Kwong
Abstract要約: 本稿では,5つの代表特性を持つHVSを再検討し,さらにその接続を再構築する。 The revisited HVS, a no-reference VQA framework called HVS-5M (NRVQA framework with five modulessimulated HVS with five characteristics)。 HVS-5Mは最先端のVQA法よりも優れていた。
参考スコア（独自算出の注目度）: 74.86068610617345
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video quality is a primary concern for video service providers. In recent years, the techniques of video quality assessment (VQA) based on deep convolutional neural networks (CNNs) have been developed rapidly. Although existing works attempt to introduce the knowledge of the human visual system (HVS) into VQA, there still exhibit limitations that prevent the full exploitation of HVS, including an incomplete model by few characteristics and insufficient connections among these characteristics. To overcome these limitations, this paper revisits HVS with five representative characteristics, and further reorganizes their connections. Based on the revisited HVS, a no-reference VQA framework called HVS-5M (NRVQA framework with five modules simulating HVS with five characteristics) is proposed. It works in a domain-fusion design paradigm with advanced network structures. On the side of the spatial domain, the visual saliency module applies SAMNet to obtain a saliency map. And then, the content-dependency and the edge masking modules respectively utilize ConvNeXt to extract the spatial features, which have been attentively weighted by the saliency map for the purpose of highlighting those regions that human beings may be interested in. On the other side of the temporal domain, to supplement the static spatial features, the motion perception module utilizes SlowFast to obtain the dynamic temporal features. Besides, the temporal hysteresis module applies TempHyst to simulate the memory mechanism of human beings, and comprehensively evaluates the quality score according to the fusion features from the spatial and temporal domains. Extensive experiments show that our HVS-5M outperforms the state-of-the-art VQA methods. Ablation studies are further conducted to verify the effectiveness of each module towards the proposed framework.
Abstract（参考訳）: ビデオ品質は、ビデオサービスプロバイダにとって主要な関心事である。近年,深層畳み込みニューラルネットワーク(CNN)に基づく映像品質評価(VQA)技術が急速に発展している。既存の研究は人間の視覚システム(HVS)の知識をVQAに導入しようと試みているが、いくつかの特徴による不完全なモデルやそれらの特徴間の不完全な接続を含む、HVSの完全利用を防ぐ限界がまだ残っている。これらの制約を克服するため,本論文では5つの代表的特徴を持つhvsを再検討し,それらの接続をさらに再編成する。再訪したhvsに基づいて、hvs-5m(5つのモジュールでhvsをシミュレートする5つのモジュールを持つnrvqaフレームワーク)と呼ばれる参照なしvqaフレームワークが提案されている。高度なネットワーク構造を持つドメイン融合設計パラダイムで動作する。空間領域の側では、視覚サリエンシーモジュールがサネットを適用してサリエンシーマップを得る。そして、コンテンツ依存モジュールとエッジマスクモジュールは、それぞれconvnextを使用して、人間の関心のある領域を強調するために、サリエンシーマップによって注意深く重み付けされた空間的特徴を抽出する。時間領域の反対側では、静的な空間的特徴を補うために、モーション知覚モジュールはSlowFastを使用して動的時間的特徴を得る。また、テンポラルヒステリシスモジュールは、人間の記憶機構をシミュレートするためにテンポラルヒステリシスを適用し、空間領域と時間領域の融合特性に応じて品質スコアを包括的に評価する。 HVS-5Mは最先端のVQA法よりも優れていた。さらに,提案フレームワークに対する各モジュールの有効性を検証するためのアブレーション研究を行った。

関連論文リスト

EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文参考訳（メタデータ） (2025-06-13T08:00:54Z)
DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-16T03:20:28Z)
Video Quality Assessment for Online Processing: From Spatial to Temporal Sampling [33.326611991696225]
本稿では、少なくともVQAモデルにビデオを送る際には、いかに少ない情報を保持するべきかを検討する。空間次元と時間次元の両方から映像情報を徹底的にサンプリングし、強く圧縮された映像を安定なVQAモデルに入力する。 6つの公開ビデオ品質データベース上で,共同空間および時間的サンプリングに関する総合的な実験を行った。
論文参考訳（メタデータ） (2025-01-13T06:45:32Z)
ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。 ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-12-29T10:13:30Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文参考訳（メタデータ） (2024-08-26T04:29:52Z)
Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-07-13T15:27:39Z)
Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示すそこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2022-10-11T11:38:07Z)
STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文参考訳（メタデータ） (2022-06-09T09:49:04Z)
A Deep Learning based No-reference Quality Assessment Model for UGC Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文参考訳（メタデータ） (2022-04-29T12:45:21Z)
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering [15.017443876780286]
VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
論文参考訳（メタデータ） (2021-09-27T15:06:10Z)
Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文参考訳（メタデータ） (2021-08-24T12:52:47Z)
Deep Learning based Full-reference and No-reference Quality Assessment Models for Compressed UGC Videos [34.761412637585266]
フレームワークは、機能抽出モジュール、品質回帰モジュール、品質プーリングモジュールの3つのモジュールで構成されている。特徴抽出モジュールでは、畳み込みニューラルネットワーク(CNN)ネットワークの中間層から特徴を最終品質認識表現に融合する。品質回帰モジュールでは、完全連結(FC)層を用いて品質認識機能をフレームレベルスコアに回帰する。
論文参考訳（メタデータ） (2021-06-02T12:23:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。