論文の概要: MRET: Multi-resolution Transformer for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2303.07489v2
- Date: Wed, 29 Mar 2023 18:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:56:04.710423
- Title: MRET: Multi-resolution Transformer for Video Quality Assessment
- Title(参考訳): MRET:ビデオ品質評価のためのマルチレゾリューショントランス
- Authors: Junjie Ke, Tianhao Zhang, Yilin Wang, Peyman Milanfar, Feng Yang
- Abstract要約: ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.355412115794195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No-reference video quality assessment (NR-VQA) for user generated content
(UGC) is crucial for understanding and improving visual experience. Unlike
video recognition tasks, VQA tasks are sensitive to changes in input
resolution. Since large amounts of UGC videos nowadays are 720p or above, the
fixed and relatively small input used in conventional NR-VQA methods results in
missing high-frequency details for many videos. In this paper, we propose a
novel Transformer-based NR-VQA framework that preserves the high-resolution
quality information. With the multi-resolution input representation and a novel
multi-resolution patch sampling mechanism, our method enables a comprehensive
view of both the global video composition and local high-resolution details.
The proposed approach can effectively aggregate quality information across
different granularities in spatial and temporal dimensions, making the model
robust to input resolution variations. Our method achieves state-of-the-art
performance on large-scale UGC VQA datasets LSVQ and LSVQ-1080p, and on
KoNViD-1k and LIVE-VQC without fine-tuning.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
ビデオ認識タスクとは異なり、VQAタスクは入力解像度の変化に敏感である。
現在、UGCビデオの量は720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオで高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存する新しいNR-VQAフレームワークを提案する。
マルチレゾリューション入力表現と新しいマルチレゾリューションパッチサンプリング機構により,グローバルなビデオ合成と局所的な高レゾリューションの詳細の両方を包括的に見ることができる。
提案手法は,空間次元と時間次元の異なる粒度にわたる品質情報を効果的に集約し,入力解像度の変動に頑健なモデルを実現する。
提案手法は,大規模 UGC VQA データセット LSVQ と LSVQ-1080p と KoNViD-1k と LIVE-VQC を微調整することなく,最先端の性能を実現する。
関連論文リスト
- LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - ReLaX-VQA: Residual Fragment and Layer Stack Extraction for Enhancing Video Quality Assessment [35.00766551093652]
本稿では, NR-VQA(No-Reference Video Quality Assessment)モデルであるReLaX-VQAを提案する。
ReLaX-VQAは、残留フレームと光学フローの断片と、サンプルフレームの空間的特徴の異なる表現を用いて、動きと空間的知覚を高める。
我々は、NR-VQAのさらなる研究と応用を促進するために、コードをオープンソース化し、訓練されたモデルを公開します。
論文 参考訳(メタデータ) (2024-07-16T08:33:55Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。