論文の概要: Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment
- arxiv url: http://arxiv.org/abs/2210.05357v1
- Date: Tue, 11 Oct 2022 11:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:56:13.976087
- Title: Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment
- Title(参考訳): 効率的な映像品質評価のための周辺代表サンプリング
- Authors: Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong
Yan, Jinwei Gu, Weisi Lin
- Abstract要約: リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 60.57703721744873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased resolution of real-world videos presents a dilemma between
efficiency and accuracy for deep Video Quality Assessment (VQA). On the one
hand, keeping the original resolution will lead to unacceptable computational
costs. On the other hand, existing practices, such as resizing and cropping,
will change the quality of original videos due to the loss of details and
contents, and are therefore harmful to quality assessment. With the obtained
insight from the study of spatial-temporal redundancy in the human visual
system and visual coding theory, we observe that quality information around a
neighbourhood is typically similar, motivating us to investigate an effective
quality-sensitive neighbourhood representatives scheme for VQA. In this work,
we propose a unified scheme, spatial-temporal grid mini-cube sampling (St-GMS)
to get a novel type of sample, named fragments. Full-resolution videos are
first divided into mini-cubes with preset spatial-temporal grids, then the
temporal-aligned quality representatives are sampled to compose the fragments
that serve as inputs for VQA. In addition, we design the Fragment Attention
Network (FANet), a network architecture tailored specifically for fragments.
With fragments and FANet, the proposed efficient end-to-end FAST-VQA and
FasterVQA achieve significantly better performance than existing approaches on
all VQA benchmarks while requiring only 1/1612 FLOPs compared to the current
state-of-the-art. Codes, models and demos are available at
https://github.com/timothyhtimothy/FAST-VQA-and-FasterVQA.
- Abstract(参考訳): 現実世界のビデオの解像度の増大は、深層ビデオ品質評価(VQA)の効率性と精度のジレンマを示す。
一方、オリジナルの解像度を維持することは、許容できない計算コストにつながる。
一方、再サイズ化や収穫といった既存の慣行は、細部や内容の喪失によってオリジナル映像の品質が変化し、品質評価に悪影響を及ぼす。
人間の視覚系における空間的時間的冗長性や視覚的符号化理論の研究から得られた知見から、近隣地域の品質情報は典型的に類似しており、VQAの効果的な品質に敏感な地区代表者方式を検討する動機となっている。
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを得る。
フルレゾリューションビデオは、まず、予め設定された時空間格子を持つミニキューブに分割し、時間整合性代表をサンプリングして、VQAの入力として機能する断片を構成する。
さらに,フラグメントに特化して設計されたネットワークアーキテクチャであるFragment Attention Network (FANet) を設計する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、現在の最先端と比較して1/1612 FLOPしか必要とせず、すべてのVQAベンチマークの既存のアプローチよりも大幅にパフォーマンスが向上した。
コード、モデル、デモはhttps://github.com/timothyhtimothy/FAST-VQA-and-FasterVQAで公開されている。
関連論文リスト
- ReLaX-VQA: Residual Fragment and Layer Stack Extraction for Enhancing Video Quality Assessment [35.00766551093652]
本稿では, NR-VQA(No-Reference Video Quality Assessment)モデルであるReLaX-VQAを提案する。
ReLaX-VQAは、残留フレームと光学フローの断片と、サンプルフレームの空間的特徴の異なる表現を用いて、動きと空間的知覚を高める。
我々は、NR-VQAのさらなる研究と応用を促進するために、コードをオープンソース化し、訓練されたモデルを公開します。
論文 参考訳(メタデータ) (2024-07-16T08:33:55Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - MRET: Multi-resolution Transformer for Video Quality Assessment [37.355412115794195]
ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T21:48:49Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。