論文の概要: Towards Unified Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2512.02224v1
- Date: Mon, 01 Dec 2025 21:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.620144
- Title: Towards Unified Video Quality Assessment
- Title(参考訳): 映像品質評価の統一化に向けて
- Authors: Chen Feng, Tianhao Peng, Fan Zhang, David Bull,
- Abstract要約: Unified-VQAは、複数のビデオフォーマット内の様々な歪みタイプに適用可能な単一の統一された品質モデルを提供するフレームワークである。
ランキングインスパイアされた損失を使用して、各専門家を最適化する、新しいマルチプロキシエキスパートトレーニング戦略が設計されている。
Unified-VQAは、一般的なVQAと診断アーティファクト検出タスクの両方のための18以上のベンチマークメソッドと比較して、一貫性と優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 9.94708780294855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works in video quality assessment (VQA) typically employ monolithic models that typically predict a single quality score for each test video. These approaches cannot provide diagnostic, interpretable feedback, offering little insight into why the video quality is degraded. Most of them are also specialized, format-specific metrics rather than truly ``generic" solutions, as they are designed to learn a compromised representation from disparate perceptual domains. To address these limitations, this paper proposes Unified-VQA, a framework that provides a single, unified quality model applicable to various distortion types within multiple video formats by recasting generic VQA as a Diagnostic Mixture-of-Experts (MoE) problem. Unified-VQA employs multiple ``perceptual experts'' dedicated to distinct perceptual domains. A novel multi-proxy expert training strategy is designed to optimize each expert using a ranking-inspired loss, guided by the most suitable proxy metric for its domain. We also integrated a diagnostic multi-task head into this framework to generate a global quality score and an interpretable multi-dimensional artifact vector, which is optimized using a weakly-supervised learning strategy, leveraging the known properties of the large-scale training database generated for this work. With static model parameters (without retraining or fine-tuning), Unified-VQA demonstrates consistent and superior performance compared to over 18 benchmark methods for both generic VQA and diagnostic artifact detection tasks across 17 databases containing diverse streaming artifacts in HD, UHD, HDR and HFR formats. This work represents an important step towards practical, actionable, and interpretable video quality assessment.
- Abstract(参考訳): ビデオ品質評価(VQA)における最近の研究は、通常、テストビデオ毎に単一の品質スコアを予測するモノリシックなモデルを採用している。
これらのアプローチは、診断的で解釈可能なフィードバックを提供することができず、なぜビデオ品質が劣化するのかについての洞察はほとんど得られない。
それらの多くは、異なる知覚領域から妥協された表現を学ぶように設計されているため、真の‘ジェネリック’ソリューションではなく、特殊でフォーマット固有のメトリクスである。
これらの制約に対処するため、本研究では、一般的なVQAを診断混合(MoE)問題として再キャストすることにより、複数のビデオフォーマット内の様々な歪みタイプに適用可能な単一の統一品質モデルを提供するフレームワークであるUnified-VQAを提案する。
Unified-VQAでは、異なる知覚領域に特化した複数の「知覚専門家」が採用されている。
新たなマルチプロキシエキスパートトレーニング戦略は、ランクインスパイアされた損失を使用して、各専門家を最適化するように設計されている。
また、このフレームワークに診断用マルチタスクヘッドを組み込んで、グローバルな品質スコアと解釈可能な多次元アーティファクトベクトルを生成し、弱教師付き学習戦略を用いて最適化し、この研究で生成された大規模トレーニングデータベースの既知の特性を活用する。
静的モデルパラメータ(リトレーニングや微調整なしで)では、Unified-VQAは、HD、UHD、HDR、HFRフォーマットのさまざまなストリーミングアーティファクトを含む17のデータベースにまたがる一般的なVQAと診断アーティファクト検出タスクのための18以上のベンチマークメソッドと比較して、一貫性と優れたパフォーマンスを示している。
この研究は、実用的で実用的な、解釈可能な映像品質評価への重要な一歩である。
関連論文リスト
- CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-10T16:37:47Z) - MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [62.929029990341796]
実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。
3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。
具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
論文 参考訳(メタデータ) (2025-10-09T17:42:51Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild [27.195339506769457]
映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。
ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。
PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
論文 参考訳(メタデータ) (2024-05-28T02:37:29Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。