論文の概要: Priorformer: A UGC-VQA Method with content and distortion priors
- arxiv url: http://arxiv.org/abs/2406.16297v1
- Date: Mon, 24 Jun 2024 03:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:13:09.865286
- Title: Priorformer: A UGC-VQA Method with content and distortion priors
- Title(参考訳): Priorformer: コンテンツと歪みを先行するUGC-VQA法
- Authors: Yajing Pei, Shiyu Huang, Yiting Lu, Xin Li, Zhibo Chen,
- Abstract要約: 本稿では,ブラインドビデオ品質評価(BVQA)モデルのための前処理型視覚変換器を提案する。
事前学習した2つの特徴抽出器からコンテンツと歪みの埋め込みを抽出することにより、コンテンツと歪みの先行を2つ導入する。
我々は、KoNViD-1K, LIVE-VQC, YouTube-UGCを含む3つの公開VQAデータセットに対して、最先端のパフォーマンスを提案する。
- 参考スコア(独自算出の注目度): 15.462151541386929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User Generated Content (UGC) videos are susceptible to complicated and variant degradations and contents, which prevents the existing blind video quality assessment (BVQA) models from good performance since the lack of the adapability of distortions and contents. To mitigate this, we propose a novel prior-augmented perceptual vision transformer (PriorFormer) for the BVQA of UGC, which boots its adaptability and representation capability for divergent contents and distortions. Concretely, we introduce two powerful priors, i.e., the content and distortion priors, by extracting the content and distortion embeddings from two pre-trained feature extractors. Then we adopt these two powerful embeddings as the adaptive prior tokens, which are transferred to the vision transformer backbone jointly with implicit quality features. Based on the above strategy, the proposed PriorFormer achieves state-of-the-art performance on three public UGC VQA datasets including KoNViD-1K, LIVE-VQC and YouTube-UGC.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)ビデオは、複雑で異質な劣化やコンテンツの影響を受けやすいため、既存のブラインドビデオ品質評価(BVQA)モデルは、歪みやコンテンツの適応性が欠如しているため、パフォーマンスが良くない。
そこで本研究では,UGC の BVQA に対する事前拡張型知覚視覚変換器 (PriorFormer) を提案する。
具体的には、2つの事前訓練された特徴抽出器からコンテンツと歪みの埋め込みを抽出することで、コンテンツと歪みの先行を2つ導入する。
次に、これらの2つの強力な埋め込みを適応型先行トークンとして採用し、視覚変換器のバックボーンに暗黙的な品質特徴とともに転送する。
上記の戦略に基づいて、提案されたPreferFormerは、KoNViD-1K、LIVE-VQC、YouTube-UGCを含む3つの公開UGC VQAデータセットで最先端のパフォーマンスを達成する。
関連論文リスト
- Revisiting Video Quality Assessment from the Perspective of Generalization [17.695835285573807]
YouTube Shorts、TikTok、Kwaiなどの短いビデオプラットフォームは、ユーザー生成コンテンツ(UGC)の急増につながっている。
これらの課題は、テストセットのパフォーマンスに影響を与えるだけでなく、異なるデータセットをまたいで一般化する能力にも影響を及ぼす。
対向重み摂動は、この景観を効果的に滑らかにし、一般化性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-09-23T09:24:55Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine
Strategy [16.436012370209845]
非参照品質評価の目的は、高精細参照にアクセスせずに歪みビデオの品質を評価することである。
本研究では,複数の画像品質評価データセットを事前学習した拡張空間認識モジュールと,軽量時間融合モジュールを紹介する。
論文 参考訳(メタデータ) (2024-01-16T17:33:54Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。