論文の概要: CLIPVQA:Video Quality Assessment via CLIP
- arxiv url: http://arxiv.org/abs/2407.04928v1
- Date: Sat, 6 Jul 2024 02:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:57:27.486346
- Title: CLIPVQA:Video Quality Assessment via CLIP
- Title(参考訳): CLIPVQA:CLIPによるビデオ品質評価
- Authors: Fengchuang Xing, Mingjie Li, Yuan-Gen Wang, Guopu Zhu, Xiaochun Cao,
- Abstract要約: VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
- 参考スコア(独自算出の注目度): 56.94085651315878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In learning vision-language representations from web-scale data, the contrastive language-image pre-training (CLIP) mechanism has demonstrated a remarkable performance in many vision tasks. However, its application to the widely studied video quality assessment (VQA) task is still an open issue. In this paper, we propose an efficient and effective CLIP-based Transformer method for the VQA problem (CLIPVQA). Specifically, we first design an effective video frame perception paradigm with the goal of extracting the rich spatiotemporal quality and content information among video frames. Then, the spatiotemporal quality features are adequately integrated together using a self-attention mechanism to yield video-level quality representation. To utilize the quality language descriptions of videos for supervision, we develop a CLIP-based encoder for language embedding, which is then fully aggregated with the generated content information via a cross-attention module for producing video-language representation. Finally, the video-level quality and video-language representations are fused together for final video quality prediction, where a vectorized regression loss is employed for efficient end-to-end optimization. Comprehensive experiments are conducted on eight in-the-wild video datasets with diverse resolutions to evaluate the performance of CLIPVQA. The experimental results show that the proposed CLIPVQA achieves new state-of-the-art VQA performance and up to 37% better generalizability than existing benchmark VQA methods. A series of ablation studies are also performed to validate the effectiveness of each module in CLIPVQA.
- Abstract(参考訳): Webスケールデータから視覚言語表現を学習する際、多くの視覚タスクにおいて対照的な言語画像事前学習(CLIP)機構が顕著な性能を示した。
しかし,ビデオ品質評価(VQA)タスクへの適用は依然として未解決の課題である。
本稿では,VQA問題(CLIPVQA)に対する効率よく効果的なCLIPベースのトランスフォーマー手法を提案する。
具体的には,ビデオフレーム間の時間的品質とコンテンツ情報の豊富な抽出を目的とした,効果的な映像フレーム認識パラダイムを最初に設計する。
そして、自己認識機構を用いて時空間品質特徴を適切に統合し、映像レベルの品質表現を得る。
ビデオの高品質な言語記述を監督に活用するために,CLIPベースの言語埋め込みエンコーダを開発し,映像言語表現を生成するためのクロスアテンションモジュールを通じて生成したコンテンツ情報と完全に集約する。
最後に、映像品質と映像言語表現を融合させて最終映像品質予測を行い、ベクトル化回帰損失を用いて効率的なエンドツーエンド最適化を行う。
CLIPVQAの性能を評価するため、多彩な解像度の8つのWildビデオデータセットに対して総合的な実験を行った。
実験結果から,提案したCLIPVQAは,既存のベンチマークVQA法よりも37%,新しい最先端のVQA性能を実現していることがわかった。
CLIPVQAにおける各モジュールの有効性を検証するための一連のアブレーション研究も行われている。
関連論文リスト
- LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - KVQ: Kwai Video Quality Assessment for Short-form Videos [24.5291786508361]
我々は,600本のユーザアップロードショートビデオと3600本のプロセッシングビデオからなる,最初の大規模KVQ(Kleidoscope short Video database for Quality Assessment)を構築した。
そこで我々は,KSVQEというビデオ品質評価装置を提案する。これにより,品質決定セマンティクスを大規模視覚言語モデルの内容理解とともに識別することができる。
論文 参考訳(メタデータ) (2024-02-11T14:37:54Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - SB-VQA: A Stack-Based Video Quality Assessment Framework for Video
Enhancement [0.40777876591043155]
本稿では,ビデオ品質評価(VQA)のためのスタックベースのフレームワークを提案する。
拡張ビデオのためのVQAフレームワークの提案に加えて、プロが生成するコンテンツ(PGC)に対するVQAの適用についても検討する。
実験により,既存のVQAアルゴリズムをPGCビデオに適用できることが実証された。
論文 参考訳(メタデータ) (2023-05-15T07:44:10Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。