論文の概要: Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment
- arxiv url: http://arxiv.org/abs/2304.14672v1
- Date: Fri, 28 Apr 2023 08:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 14:55:15.547072
- Title: Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment
- Title(参考訳): 映像品質評価のためのロバストテキストプロンプトセマンティック基準に向けて
- Authors: Haoning Wu, Liang Liao, Annan Wang, Chaofeng Chen, Jingwen Hou, Wenxiu
Sun, Qiong Yan, Weisi Lin
- Abstract要約: コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
- 参考スコア(独自算出の注目度): 54.31355080688127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of videos collected during in-the-wild natural settings has
pushed the development of effective Video Quality Assessment (VQA)
methodologies. Contemporary supervised opinion-driven VQA strategies
predominantly hinge on training from expensive human annotations for quality
scores, which limited the scale and distribution of VQA datasets and
consequently led to unsatisfactory generalization capacity of methods driven by
these data. On the other hand, although several handcrafted zero-shot quality
indices do not require training from human opinions, they are unable to account
for the semantics of videos, rendering them ineffective in comprehending
complex authentic distortions (e.g., white balance, exposure) and assessing the
quality of semantic content within videos. To address these challenges, we
introduce the text-prompted Semantic Affinity Quality Index (SAQI) and its
localized version (SAQI-Local) using Contrastive Language-Image Pre-training
(CLIP) to ascertain the affinity between textual prompts and visual features,
facilitating a comprehensive examination of semantic quality concerns without
the reliance on human quality annotations. By amalgamating SAQI with existing
low-level metrics, we propose the unified Blind Video Quality Index (BVQI) and
its improved version, BVQI-Local, which demonstrates unprecedented performance,
surpassing existing zero-shot indices by at least 24\% on all datasets.
Moreover, we devise an efficient fine-tuning scheme for BVQI-Local that jointly
optimizes text prompts and final fusion weights, resulting in state-of-the-art
performance and superior generalization ability in comparison to prevalent
opinion-driven VQA methods. We conduct comprehensive analyses to investigate
different quality concerns of distinct indices, demonstrating the effectiveness
and rationality of our design.
- Abstract(参考訳): 野生の自然環境下で収集されたビデオの拡散は、有効なビデオ品質評価(VQA)手法の開発を推し進めている。
現代の世論主導型VQA戦略は、VQAデータセットの規模と分布を制限し、これらのデータによって駆動されるメソッドの満足のいく一般化能力に繋がる、品質スコアのための高価な人的アノテーションからのトレーニングを主にヒンジする。
一方で、いくつかの手作りのゼロショット品質指標は人間の意見からのトレーニングを必要としないが、ビデオの意味を考慮できず、複雑な真正な歪曲(ホワイトバランス、露出など)の理解やビデオ内の意味コンテンツの品質評価に役立たない。
これらの課題に対処するため,テキストプロンプトと視覚的特徴の親和性を確認するために,コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト型セマンティック親和性指標(SAQI)とその局所化バージョン(SAQI-Local)を導入する。
既存の低レベルメトリクスとsaqiを融合することにより,bvqiと改良されたbvqi-localが,既存のゼロショットインデックスを24時間以上上回って,前例のないパフォーマンスを示している。
さらに,テキストプロンプトと最終的な融合重みを共同で最適化するbvqi-localの効率的な微調整方式を考案し,最先端の性能と一般的な意見駆動型vqa法と比較して優れた一般化能力を実現する。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
関連論文リスト
- Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video
Quality Models [55.694387785978996]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文 参考訳(メタデータ) (2023-02-26T08:46:07Z) - Disentangling Aesthetic and Technical Effects for Video Quality
Assessment of User Generated Content [54.31355080688127]
YouTube-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。
本稿では,2つの個別評価器を,各問題に特化して設計したビューで訓練する手法を提案する。
我々の盲目主観的研究は、DOVERの別個の評価器が、各不整合品質問題に対する人間の認識と効果的に一致できることを証明している。
論文 参考訳(メタデータ) (2022-11-09T13:55:50Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Blindly Assess Quality of In-the-Wild Videos via Quality-aware
Pre-training and Motion Perception [32.87570883484805]
本稿では,画像品質評価(IQA)データベースからの知識の伝達と,リッチな動きパターンを用いた大規模行動認識を提案する。
対象のVQAデータベース上で、混合リストワイドランキング損失関数を用いて、提案したモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-08-19T05:29:19Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。