論文の概要: Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision
- arxiv url: http://arxiv.org/abs/2505.03631v1
- Date: Tue, 06 May 2025 15:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.450382
- Title: Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision
- Title(参考訳): Breaking Annotation Barriers: ランキングベースのセルフスーパービジョンによる一般的なビデオ品質評価
- Authors: Linhan Cao, Wei Sun, Kaiwei Zhang, Yicong Peng, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 49.46606936180063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video quality assessment (VQA) is essential for quantifying perceptual quality in various video processing workflows, spanning from camera capture systems to over-the-top streaming platforms. While recent supervised VQA models have made substantial progress, the reliance on manually annotated datasets -- a process that is labor-intensive, costly, and difficult to scale up -- has hindered further optimization of their generalization to unseen video content and distortions. To bridge this gap, we introduce a self-supervised learning framework for VQA to learn quality assessment capabilities from large-scale, unlabeled web videos. Our approach leverages a \textbf{learning-to-rank} paradigm to train a large multimodal model (LMM) on video pairs automatically labeled via two manners, including quality pseudo-labeling by existing VQA models and relative quality ranking based on synthetic distortion simulations. Furthermore, we introduce a novel \textbf{iterative self-improvement training strategy}, where the trained model acts an improved annotator to iteratively refine the annotation quality of training data. By training on a dataset $10\times$ larger than the existing VQA benchmarks, our model: (1) achieves zero-shot performance on in-domain VQA benchmarks that matches or surpasses supervised models; (2) demonstrates superior out-of-distribution (OOD) generalization across diverse video content and distortions; and (3) sets a new state-of-the-art when fine-tuned on human-labeled datasets. Extensive experimental results validate the effectiveness of our self-supervised approach in training generalized VQA models. The datasets and code will be publicly released to facilitate future research.
- Abstract(参考訳): ビデオ品質評価(VQA)は、様々なビデオ処理ワークフローにおける知覚品質の定量化に不可欠である。
最近の教師付きVQAモデルは大きな進歩を遂げているが、労働集約的でコストがかかり、スケールアップが難しい手動のアノテートデータセットへの依存は、ビデオコンテンツや歪みを目にしないものに一般化のさらなる最適化を妨げている。
このギャップを埋めるために、VQAのための自己教師付き学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価能力を学ぶ。
提案手法は,既存のVQAモデルによる品質疑似ラベル付けや,合成シュミレーションシミュレーションに基づく相対的品質ランキングなどの2つの手法で自動ラベル付けされたビデオペア上で,大規模なマルチモーダルモデル(LMM)をトレーニングするために,textbf{learning-to-rank}パラダイムを活用する。
さらに、トレーニングされたモデルが改良アノテータとして機能し、トレーニングデータのアノテーション品質を反復的に改善する、新しい「textbf{iterative self-improvement training strategy」を導入する。
既存のVQAベンチマークよりも10\times$のデータセットをトレーニングすることにより、(1)教師付きモデルに適合または超越したドメイン内VQAベンチマークでゼロショットのパフォーマンスを達成する、(2)多様なビデオコンテンツや歪みにまたがる優れたアウト・オブ・ディストリビューション(OOD)の一般化を示す、(3)人間のラベル付きデータセットに微調整された場合の新たな最先端設定。
一般VQAモデルの訓練における自己教師型アプローチの有効性を実験的に検証した。
データセットとコードは、将来の研究を促進するために公開されている。
関連論文リスト
- Video Quality Assessment: A Comprehensive Survey [55.734935003021576]
映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。
本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文 参考訳(メタデータ) (2024-12-04T05:25:17Z) - PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild [27.195339506769457]
映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。
ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。
PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
論文 参考訳(メタデータ) (2024-05-28T02:37:29Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。