論文の概要: Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm
- arxiv url: http://arxiv.org/abs/2505.03631v3
- Date: Wed, 15 Oct 2025 05:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.497777
- Title: Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm
- Title(参考訳): 映像品質評価の一般化に向けて : 弱々しい学習パラダイム
- Authors: Linhan Cao, Wei Sun, Xiangyang Zhu, Kaiwei Zhang, Jun Jia, Yicong Peng, Dandan Zhu, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
- 参考スコア(独自算出の注目度): 76.63001244080313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video quality assessment (VQA) seeks to predict the perceptual quality of a video in alignment with human visual perception, serving as a fundamental tool for quantifying quality degradation across video processing workflows. The dominant VQA paradigm relies on supervised training with human-labeled datasets, which, despite substantial progress, still suffers from poor generalization to unseen video content. Moreover, its reliance on human annotations -- which are labor-intensive and costly -- makes it difficult to scale datasets for improving model generalization. In this work, we explore weak-to-strong (W2S) learning as a new paradigm for advancing VQA without reliance on large-scale human-labeled datasets. We first provide empirical evidence that a straightforward W2S strategy allows a strong student model to not only match its weak teacher on in-domain benchmarks but also surpass it on out-of-distribution (OOD) benchmarks, revealing a distinct weak-to-strong effect in VQA. Building on this insight, we propose a novel framework that enhances W2S learning from two aspects: (1) integrating homogeneous and heterogeneous supervision signals from diverse VQA teachers -- including off-the-shelf VQA models and synthetic distortion simulators -- via a learn-to-rank formulation, and (2) iterative W2S training, where each strong student is recycled as the teacher in subsequent cycles, progressively focusing on challenging cases. Extensive experiments show that our method achieves state-of-the-art results across both in-domain and OOD benchmarks, with especially strong gains in OOD scenarios. Our findings highlight W2S learning as a principled route to break annotation barriers and achieve scalable generalization in VQA, with implications extending to broader alignment and evaluation tasks.
- Abstract(参考訳): ビデオ品質アセスメント(VQA)は、人間の視覚的知覚に合わせて、ビデオの知覚品質を予測し、ビデオ処理ワークフロー間で品質劣化を定量化する基本的なツールとして機能する。
主流のVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
さらに、労働集約的でコストがかかるヒューマンアノテーションに依存しているため、モデルの一般化を改善するためにデータセットをスケールすることは困難です。
本研究では,大規模な人間ラベルデータセットに頼らずにVQAを進化させるための新しいパラダイムとして,弱強学習(W2S)を探求する。
まず、簡単なW2S戦略により、強力な学生モデルが、ドメイン内ベンチマークにおいて弱い教師にマッチするだけでなく、オフ・オブ・ディストリビューション(OOD)ベンチマークでもそれを乗り越えることを可能にし、VQAにおける弱い対強の効果が明らかになる、という実証的な証拠を提示する。
そこで本研究では,(1)既成のVQAモデルや合成歪みシミュレータなど,多様なVQA教師の均質的・異質的な指導信号の統合と,(2)学習からランクへの定式化による反復的なW2S学習,(2)後続のサイクルにおいて各生徒が教師としてリサイクルされ,挑戦的な事例に着目する,という2つの側面からW2S学習を強化する枠組みを提案する。
大規模な実験により,本手法はドメイン内ベンチマークとOODベンチマークの両方で最先端の結果が得られ,特にOODシナリオでは顕著に向上した。
本研究は,W2S学習を,アノテーション障壁を破り,VQAのスケーラブルな一般化を実現するための原則的経路として強調し,より広範なアライメントと評価タスクにまで拡張した。
関連論文リスト
- VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning [21.35520258725298]
VQ-Insightは、AIGCビデオ品質評価のための新しい推論スタイルのフレームワークである。
画像品質のウォームアップ、タスク固有の時間学習、およびビデオ生成モデルとの協調最適化を組み合わせる。
選好比較、多次元スコア、自然なビデオスコアにおいて、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-23T12:20:14Z) - Scaling-up Perceptual Video Quality Assessment [54.691252495691955]
マルチモーダル・イン・ループ型VQAマルチモーダル・インストラクション・データベースを効率的に構築する方法を示す。
我々の焦点は、微細なVQAの知識を提供するために、多くのコンテキスト内インストラクションデータを持つ技術と美的品質の次元である。
この結果から,我々のモデルは,品質理解と評価の両タスクにおいて,最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T16:24:52Z) - Video Quality Assessment: A Comprehensive Survey [55.734935003021576]
映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。
本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文 参考訳(メタデータ) (2024-12-04T05:25:17Z) - PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild [27.195339506769457]
映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。
ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。
PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
論文 参考訳(メタデータ) (2024-05-28T02:37:29Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。