論文の概要: Q-CLIP: Unleashing the Power of Vision-Language Models for Video Quality Assessment through Unified Cross-Modal Adaptation
- arxiv url: http://arxiv.org/abs/2508.06092v1
- Date: Fri, 08 Aug 2025 07:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.12388
- Title: Q-CLIP: Unleashing the Power of Vision-Language Models for Video Quality Assessment through Unified Cross-Modal Adaptation
- Title(参考訳): Q-CLIP:Unified Cross-Modal Adaptationによる映像品質評価のための視覚言語モデルのパワーの解放
- Authors: Yachun Mi, Yu Li, Yanting Li, Shixin Sun, Chen Hui, Tong Zhang, Yuanyuan Liu, Chenyue Song, Shaohui Liu,
- Abstract要約: VLM(Vision-Language Models)は、幅広い視覚タスクにまたがる顕著な一般化機能を示す。
ビデオ品質評価(VQA)のための完全なVLMベースのフレームワークQ-CLIPを提案する。
- 参考スコア(独自算出の注目度): 23.91894348449985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and efficient Video Quality Assessment (VQA) has long been a key research challenge. Current mainstream VQA methods typically improve performance by pretraining on large-scale classification datasets (e.g., ImageNet, Kinetics-400), followed by fine-tuning on VQA datasets. However, this strategy presents two significant challenges: (1) merely transferring semantic knowledge learned from pretraining is insufficient for VQA, as video quality depends on multiple factors (e.g., semantics, distortion, motion, aesthetics); (2) pretraining on large-scale datasets demands enormous computational resources, often dozens or even hundreds of times greater than training directly on VQA datasets. Recently, Vision-Language Models (VLMs) have shown remarkable generalization capabilities across a wide range of visual tasks, and have begun to demonstrate promising potential in quality assessment. In this work, we propose Q-CLIP, the first fully VLMs-based framework for VQA. Q-CLIP enhances both visual and textual representations through a Shared Cross-Modal Adapter (SCMA), which contains only a minimal number of trainable parameters and is the only component that requires training. This design significantly reduces computational cost. In addition, we introduce a set of five learnable quality-level prompts to guide the VLMs in perceiving subtle quality variations, thereby further enhancing the model's sensitivity to video quality. Furthermore, we investigate the impact of different frame sampling strategies on VQA performance, and find that frame-difference-based sampling leads to better generalization performance across datasets. Extensive experiments demonstrate that Q-CLIP exhibits excellent performance on several VQA datasets.
- Abstract(参考訳): 正確で効率的なビデオ品質評価(VQA)は、長い間重要な研究課題であった。
現在の主流のVQAメソッドは、大規模な分類データセット(例えば、ImageNet、Kinetics-400)で事前トレーニングを行い、続いてVQAデータセットの微調整によってパフォーマンスが向上する。
ビデオの品質は複数の要因(セマンティクス、歪み、動き、美学など)に依存しているため、VQAでは、事前学習から学んだ意味知識の伝達だけでは不十分である。
近年、視覚言語モデル (VLM) は、広範囲の視覚タスクにおいて顕著な一般化能力を示し、品質評価において有望な可能性を証明し始めている。
本稿では,VQA のための VLM ベースのフレームワーク Q-CLIP を提案する。
Q-CLIPは、最小限のトレーニング可能なパラメータだけを含み、トレーニングを必要とする唯一のコンポーネントである共有クロスモーダルアダプタ(SCMA)を通じて、視覚的およびテキスト的表現を強化する。
この設計は計算コストを大幅に削減する。
さらに,5つの学習可能な品質レベルのプロンプトを導入して,VLMを微妙な品質変化を認識することによって,映像品質に対するモデルの感度をさらに高める。
さらに、異なるフレームサンプリング戦略がVQA性能に与える影響について検討し、フレーム差に基づくサンプリングによってデータセット間の一般化性能が向上することを確認する。
大規模な実験により、Q-CLIPはいくつかのVQAデータセットで優れた性能を示すことが示された。
関連論文リスト
- Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。