論文の概要: MRET: Multi-resolution Transformer for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2303.07489v2
- Date: Wed, 29 Mar 2023 18:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:56:04.710423
- Title: MRET: Multi-resolution Transformer for Video Quality Assessment
- Title(参考訳): MRET:ビデオ品質評価のためのマルチレゾリューショントランス
- Authors: Junjie Ke, Tianhao Zhang, Yilin Wang, Peyman Milanfar, Feng Yang
- Abstract要約: ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.355412115794195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No-reference video quality assessment (NR-VQA) for user generated content
(UGC) is crucial for understanding and improving visual experience. Unlike
video recognition tasks, VQA tasks are sensitive to changes in input
resolution. Since large amounts of UGC videos nowadays are 720p or above, the
fixed and relatively small input used in conventional NR-VQA methods results in
missing high-frequency details for many videos. In this paper, we propose a
novel Transformer-based NR-VQA framework that preserves the high-resolution
quality information. With the multi-resolution input representation and a novel
multi-resolution patch sampling mechanism, our method enables a comprehensive
view of both the global video composition and local high-resolution details.
The proposed approach can effectively aggregate quality information across
different granularities in spatial and temporal dimensions, making the model
robust to input resolution variations. Our method achieves state-of-the-art
performance on large-scale UGC VQA datasets LSVQ and LSVQ-1080p, and on
KoNViD-1k and LIVE-VQC without fine-tuning.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
ビデオ認識タスクとは異なり、VQAタスクは入力解像度の変化に敏感である。
現在、UGCビデオの量は720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオで高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存する新しいNR-VQAフレームワークを提案する。
マルチレゾリューション入力表現と新しいマルチレゾリューションパッチサンプリング機構により,グローバルなビデオ合成と局所的な高レゾリューションの詳細の両方を包括的に見ることができる。
提案手法は,空間次元と時間次元の異なる粒度にわたる品質情報を効果的に集約し,入力解像度の変動に頑健なモデルを実現する。
提案手法は,大規模 UGC VQA データセット LSVQ と LSVQ-1080p と KoNViD-1k と LIVE-VQC を微調整することなく,最先端の性能を実現する。
関連論文リスト
- KVQ: Kwai Video Quality Assessment for Short-form Videos [24.5291786508361]
我々は,600本のユーザアップロードショートビデオと3600本のプロセッシングビデオからなる,最初の大規模KVQ(Kleidoscope short Video database for Quality Assessment)を構築した。
そこで我々は,KSVQEというビデオ品質評価装置を提案する。これにより,品質決定セマンティクスを大規模視覚言語モデルの内容理解とともに識別することができる。
論文 参考訳(メタデータ) (2024-02-11T14:37:54Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video
Quality Models [55.694387785978996]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Patch-VQ: 'Patching Up' the Video Quality Problem [0.9786690381850356]
No-Reference (NR) Perceptual Video Quality Assessment (VQA) は、ソーシャルメディアおよびストリーミングメディアアプリケーションにおいて複雑で未解決で重要な問題である。
現在のNRモデルでは、実世界の"In-the-wild"ビデオデータ上での予測能力に制限がある。
私たちは、39,000の現実世界の歪曲したビデオと117,000の空間的局所化されたビデオパッチを含む、最も大きな(遠くまで)主観的なビデオ品質データセットを作成します。
論文 参考訳(メタデータ) (2020-11-27T03:46:44Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。