Fugu-MT 論文翻訳(概要): MRET: Multi-resolution Transformer for Video Quality Assessment

論文の概要: MRET: Multi-resolution Transformer for Video Quality Assessment

arxiv url: http://arxiv.org/abs/2303.07489v2
Date: Wed, 29 Mar 2023 18:23:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 16:56:04.710423
Title: MRET: Multi-resolution Transformer for Video Quality Assessment
Title（参考訳）: MRET:ビデオ品質評価のためのマルチレゾリューショントランス
Authors: Junjie Ke, Tianhao Zhang, Yilin Wang, Peyman Milanfar, Feng Yang
Abstract要約: ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
参考スコア（独自算出の注目度）: 37.355412115794195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: No-reference video quality assessment (NR-VQA) for user generated content (UGC) is crucial for understanding and improving visual experience. Unlike video recognition tasks, VQA tasks are sensitive to changes in input resolution. Since large amounts of UGC videos nowadays are 720p or above, the fixed and relatively small input used in conventional NR-VQA methods results in missing high-frequency details for many videos. In this paper, we propose a novel Transformer-based NR-VQA framework that preserves the high-resolution quality information. With the multi-resolution input representation and a novel multi-resolution patch sampling mechanism, our method enables a comprehensive view of both the global video composition and local high-resolution details. The proposed approach can effectively aggregate quality information across different granularities in spatial and temporal dimensions, making the model robust to input resolution variations. Our method achieves state-of-the-art performance on large-scale UGC VQA datasets LSVQ and LSVQ-1080p, and on KoNViD-1k and LIVE-VQC without fine-tuning.
Abstract（参考訳）: ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。ビデオ認識タスクとは異なり、VQAタスクは入力解像度の変化に敏感である。現在、UGCビデオの量は720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオで高周波の詳細を欠いている。本稿では,高分解能な品質情報を保存する新しいNR-VQAフレームワークを提案する。マルチレゾリューション入力表現と新しいマルチレゾリューションパッチサンプリング機構により,グローバルなビデオ合成と局所的な高レゾリューションの詳細の両方を包括的に見ることができる。提案手法は,空間次元と時間次元の異なる粒度にわたる品質情報を効果的に集約し,入力解像度の変動に頑健なモデルを実現する。提案手法は,大規模 UGC VQA データセット LSVQ と LSVQ-1080p と KoNViD-1k と LIVE-VQC を微調整することなく,最先端の性能を実現する。

関連論文リスト

LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文参考訳（メタデータ） (2024-08-26T04:29:52Z)
Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
ReLaX-VQA: Residual Fragment and Layer Stack Extraction for Enhancing Video Quality Assessment [35.00766551093652]
本稿では, NR-VQA(No-Reference Video Quality Assessment)モデルであるReLaX-VQAを提案する。 ReLaX-VQAは、残留フレームと光学フローの断片と、サンプルフレームの空間的特徴の異なる表現を用いて、動きと空間的知覚を高める。我々は、NR-VQAのさらなる研究と応用を促進するために、コードをオープンソース化し、訓練されたモデルを公開します。
論文参考訳（メタデータ） (2024-07-16T08:33:55Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-14T16:32:11Z)
Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示すそこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2022-10-11T11:38:07Z)
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。そこで我々はGrid Mini-patch Smpling (GMS)を提案する。フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。 FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文参考訳（メタデータ） (2022-07-06T11:11:43Z)
A Deep Learning based No-reference Quality Assessment Model for UGC Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文参考訳（メタデータ） (2022-04-29T12:45:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。