論文の概要: Highly Efficient No-reference 4K Video Quality Assessment with Full-Pixel Covering Sampling and Training Strategy
- arxiv url: http://arxiv.org/abs/2407.20766v1
- Date: Tue, 30 Jul 2024 12:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:19:48.807608
- Title: Highly Efficient No-reference 4K Video Quality Assessment with Full-Pixel Covering Sampling and Training Strategy
- Title(参考訳): フルピクセル被覆サンプリングとトレーニング戦略を用いた高能率ノンレファレンス4Kビデオ品質評価
- Authors: Xiaoheng Tan, Jiabin Zhang, Yuhui Quan, Jing Li, Yajing Wu, Zilin Bian,
- Abstract要約: No-Reference (NR) VQA法は、参照ビデオの取得が制限されるか、実現不可能な状況において重要な役割を担っている。
視聴者の体験を豊かにするために、超高精細な定義(例:4K)でより多くのストリーミングビデオが作成されているため、現在のディープVQA手法は、許容できない計算コストに直面している。
本稿では,高効率かつ斬新なNR 4K VQA技術を提案する。
- 参考スコア(独自算出の注目度): 23.61467796740852
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep Video Quality Assessment (VQA) methods have shown impressive high-performance capabilities. Notably, no-reference (NR) VQA methods play a vital role in situations where obtaining reference videos is restricted or not feasible. Nevertheless, as more streaming videos are being created in ultra-high definition (e.g., 4K) to enrich viewers' experiences, the current deep VQA methods face unacceptable computational costs. Furthermore, the resizing, cropping, and local sampling techniques employed in these methods can compromise the details and content of original 4K videos, thereby negatively impacting quality assessment. In this paper, we propose a highly efficient and novel NR 4K VQA technology. Specifically, first, a novel data sampling and training strategy is proposed to tackle the problem of excessive resolution. This strategy allows the VQA Swin Transformer-based model to effectively train and make inferences using the full data of 4K videos on standard consumer-grade GPUs without compromising content or details. Second, a weighting and scoring scheme is developed to mimic the human subjective perception mode, which is achieved by considering the distinct impact of each sub-region within a 4K frame on the overall perception. Third, we incorporate the frequency domain information of video frames to better capture the details that affect video quality, consequently further improving the model's generalizability. To our knowledge, this is the first technology for the NR 4K VQA task. Thorough empirical studies demonstrate it not only significantly outperforms existing methods on a specialized 4K VQA dataset but also achieves state-of-the-art performance across multiple open-source NR video quality datasets.
- Abstract(参考訳): ディープビデオ品質評価(VQA)手法は、優れた高性能機能を示している。
特に、ノン参照(NR)VQA法は、参照ビデオの取得が制限されるか、実現不可能な状況において重要な役割を果たす。
しかし、視聴者の体験を豊かにする超高精細な定義(例:4K)でより多くのストリーミングビデオが作成されているため、現在の深いVQA手法は許容できない計算コストに直面している。
さらに、これらの手法で使用されるリサイズ、収穫、局所サンプリング技術は、オリジナル4Kビデオの細部と内容に悪影響を及ぼし、品質評価に悪影響を及ぼす可能性がある。
本稿では,高効率かつ斬新なNR 4K VQA技術を提案する。
具体的には、まず、過度な解像度の問題に取り組むために、新しいデータサンプリングとトレーニング戦略を提案する。
この戦略により、VQA Swin Transformerベースのモデルでは、コンテンツや詳細を妥協することなく、標準のコンシューマグレードのGPU上で4Kビデオの全データを効果的にトレーニングし、推論することができる。
第2に、4Kフレーム内の各サブリージョンが全体知覚に与える影響を考慮し、人間の主観的知覚モードを模倣する重み付けとスコアリング手法を開発した。
第3に、ビデオフレームの周波数領域情報を組み込んで、映像品質に影響を与える詳細をよりよく捉え、その結果、モデルの一般化性をさらに向上させる。
我々の知る限りでは、NR 4K VQAタスクのための最初の技術である。
徹底的な実証研究により、特定の4K VQAデータセット上で既存のメソッドを著しく上回るだけでなく、複数のオープンソースNRビデオ品質データセットで最先端のパフォーマンスを達成できることが示された。
関連論文リスト
- EVQAScore: Efficient Video Question Answering Data Evaluation [23.812020049901452]
本稿では,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリー手法EVQAScoreを紹介する。
提案手法は,Kendall相関32.8,Spearman相関42.3,従来のPAC-S++よりも4.7,5.9,動画キャプション評価5.9)。
データ選択にEVQAScoreを用いることで、元のデータボリュームのわずか12.5%でSOTA結果を達成し、以前のSOTA手法であるPAC-Sと100%のデータより優れていた。
論文 参考訳(メタデータ) (2024-11-11T12:11:36Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results [120.95863275142727]
本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。
この課題は、様々な圧縮標準の14コーデックで符号化された459本の動画の多様なデータセット上で、VQA法の性能を評価することであった。
論文 参考訳(メタデータ) (2024-08-21T20:32:45Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - MRET: Multi-resolution Transformer for Video Quality Assessment [37.355412115794195]
ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T21:48:49Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - Deep Neural Network for Blind Visual Quality Assessment of 4K Content [37.70643043547502]
既存のブラインド画像品質評価法(BIQA)は、オリジナルおよびアップスケールの4Kコンテンツには適していない。
本研究では、4Kコンテンツに対する深層学習に基づくBIQAモデルを提案する。
提案手法はマルチタスク学習方式を用いて学習し,分類タスクと回帰タスクの損失のバランスをとる不確実性原理を導入する。
論文 参考訳(メタデータ) (2022-06-09T09:10:54Z) - Patch-VQ: 'Patching Up' the Video Quality Problem [0.9786690381850356]
No-Reference (NR) Perceptual Video Quality Assessment (VQA) は、ソーシャルメディアおよびストリーミングメディアアプリケーションにおいて複雑で未解決で重要な問題である。
現在のNRモデルでは、実世界の"In-the-wild"ビデオデータ上での予測能力に制限がある。
私たちは、39,000の現実世界の歪曲したビデオと117,000の空間的局所化されたビデオパッチを含む、最も大きな(遠くまで)主観的なビデオ品質データセットを作成します。
論文 参考訳(メタデータ) (2020-11-27T03:46:44Z) - Video Compression with CNN-based Post Processing [18.145942926665164]
本稿では,2つの最先端コーディング標準であるVVCとAV1を統合したCNNベースのポストプロセッシング手法を提案する。
その結果、様々な空間解像度でテストされた全てのシーケンスで一貫した符号化が得られ、それぞれ平均ビットレートは4.0%、AV1に対して5.8%である。
論文 参考訳(メタデータ) (2020-09-16T10:07:32Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。