論文の概要: Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment
- arxiv url: http://arxiv.org/abs/2304.14672v1
- Date: Fri, 28 Apr 2023 08:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 14:55:15.547072
- Title: Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment
- Title(参考訳): 映像品質評価のためのロバストテキストプロンプトセマンティック基準に向けて
- Authors: Haoning Wu, Liang Liao, Annan Wang, Chaofeng Chen, Jingwen Hou, Wenxiu
Sun, Qiong Yan, Weisi Lin
- Abstract要約: コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
- 参考スコア(独自算出の注目度): 54.31355080688127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of videos collected during in-the-wild natural settings has
pushed the development of effective Video Quality Assessment (VQA)
methodologies. Contemporary supervised opinion-driven VQA strategies
predominantly hinge on training from expensive human annotations for quality
scores, which limited the scale and distribution of VQA datasets and
consequently led to unsatisfactory generalization capacity of methods driven by
these data. On the other hand, although several handcrafted zero-shot quality
indices do not require training from human opinions, they are unable to account
for the semantics of videos, rendering them ineffective in comprehending
complex authentic distortions (e.g., white balance, exposure) and assessing the
quality of semantic content within videos. To address these challenges, we
introduce the text-prompted Semantic Affinity Quality Index (SAQI) and its
localized version (SAQI-Local) using Contrastive Language-Image Pre-training
(CLIP) to ascertain the affinity between textual prompts and visual features,
facilitating a comprehensive examination of semantic quality concerns without
the reliance on human quality annotations. By amalgamating SAQI with existing
low-level metrics, we propose the unified Blind Video Quality Index (BVQI) and
its improved version, BVQI-Local, which demonstrates unprecedented performance,
surpassing existing zero-shot indices by at least 24\% on all datasets.
Moreover, we devise an efficient fine-tuning scheme for BVQI-Local that jointly
optimizes text prompts and final fusion weights, resulting in state-of-the-art
performance and superior generalization ability in comparison to prevalent
opinion-driven VQA methods. We conduct comprehensive analyses to investigate
different quality concerns of distinct indices, demonstrating the effectiveness
and rationality of our design.
- Abstract(参考訳): 野生の自然環境下で収集されたビデオの拡散は、有効なビデオ品質評価(VQA)手法の開発を推し進めている。
現代の世論主導型VQA戦略は、VQAデータセットの規模と分布を制限し、これらのデータによって駆動されるメソッドの満足のいく一般化能力に繋がる、品質スコアのための高価な人的アノテーションからのトレーニングを主にヒンジする。
一方で、いくつかの手作りのゼロショット品質指標は人間の意見からのトレーニングを必要としないが、ビデオの意味を考慮できず、複雑な真正な歪曲(ホワイトバランス、露出など)の理解やビデオ内の意味コンテンツの品質評価に役立たない。
これらの課題に対処するため,テキストプロンプトと視覚的特徴の親和性を確認するために,コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト型セマンティック親和性指標(SAQI)とその局所化バージョン(SAQI-Local)を導入する。
既存の低レベルメトリクスとsaqiを融合することにより,bvqiと改良されたbvqi-localが,既存のゼロショットインデックスを24時間以上上回って,前例のないパフォーマンスを示している。
さらに,テキストプロンプトと最終的な融合重みを共同で最適化するbvqi-localの効率的な微調整方式を考案し,最先端の性能と一般的な意見駆動型vqa法と比較して優れた一般化能力を実現する。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
関連論文リスト
- Advancing Video Quality Assessment for AIGC [17.23281750562252]
本稿では,平均絶対誤差とクロスエントロピー損失を組み合わせ,フレーム間品質の不整合を緩和する新たな損失関数を提案する。
また,モデルの一般化能力を高めるために,敵対的トレーニングを活用しながら,重要なコンテンツを維持するために革新的なS2CNet技術を導入する。
論文 参考訳(メタデータ) (2024-09-23T10:36:22Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文 参考訳(メタデータ) (2023-02-26T08:46:07Z) - Blindly Assess Quality of In-the-Wild Videos via Quality-aware
Pre-training and Motion Perception [32.87570883484805]
本稿では,画像品質評価(IQA)データベースからの知識の伝達と,リッチな動きパターンを用いた大規模行動認識を提案する。
対象のVQAデータベース上で、混合リストワイドランキング損失関数を用いて、提案したモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-08-19T05:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。