論文の概要: CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video
- arxiv url: http://arxiv.org/abs/2511.07290v1
- Date: Mon, 10 Nov 2025 16:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.372409
- Title: CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video
- Title(参考訳): CAMP-VQA:圧縮ビデオの非参照品質評価のためのカプセル付きマルチモーダル知覚
- Authors: Xinyi Wang, Angeliki Katsenou, Junxiao Shen, David Bull,
- Abstract要約: 本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
- 参考スコア(独自算出の注目度): 9.172799792564009
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The prevalence of user-generated content (UGC) on platforms such as YouTube and TikTok has rendered no-reference (NR) perceptual video quality assessment (VQA) vital for optimizing video delivery. Nonetheless, the characteristics of non-professional acquisition and the subsequent transcoding of UGC video on sharing platforms present significant challenges for NR-VQA. Although NR-VQA models attempt to infer mean opinion scores (MOS), their modeling of subjective scores for compressed content remains limited due to the absence of fine-grained perceptual annotations of artifact types. To address these challenges, we propose CAMP-VQA, a novel NR-VQA framework that exploits the semantic understanding capabilities of large vision-language models. Our approach introduces a quality-aware prompting mechanism that integrates video metadata (e.g., resolution, frame rate, bitrate) with key fragments extracted from inter-frame variations to guide the BLIP-2 pretraining approach in generating fine-grained quality captions. A unified architecture has been designed to model perceptual quality across three dimensions: semantic alignment, temporal characteristics, and spatial characteristics. These multimodal features are extracted and fused, then regressed to video quality scores. Extensive experiments on a wide variety of UGC datasets demonstrate that our model consistently outperforms existing NR-VQA methods, achieving improved accuracy without the need for costly manual fine-grained annotations. Our method achieves the best performance in terms of average rank and linear correlation (SRCC: 0.928, PLCC: 0.938) compared to state-of-the-art methods. The source code and trained models, along with a user-friendly demo, are available at: https://github.com/xinyiW915/CAMP-VQA.
- Abstract(参考訳): YouTubeやTikTokなどのプラットフォームにおけるユーザ生成コンテンツ(UGC)の普及は、ビデオ配信を最適化するためには、知覚的ビデオ品質評価(VQA)が不可欠である。
それにもかかわらず、非専門的買収の特徴と共有プラットフォーム上でのUGCビデオの変換は、NR-VQAにとって重要な課題である。
NR-VQAモデルは平均世論スコア(MOS)を推定しようとするが、圧縮されたコンテンツに対する主観的スコアのモデル化は、アーティファクトタイプの微妙な知覚的アノテーションが欠如しているため、依然として限られている。
これらの課題に対処するために,大規模な視覚言語モデルの意味理解機能を活用する新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
提案手法では,ビデオメタデータ(解像度,フレームレート,ビットレートなど)をフレーム間変動から抽出したキーフラグメントと統合し,BLIP-2事前学習手法を用いて,きめ細かい品質キャプションを生成する。
統合アーキテクチャは、意味的アライメント、時間的特性、空間的特徴の3次元にわたって知覚品質をモデル化するために設計されている。
これらのマルチモーダル特徴を抽出して融合し、ビデオ品質スコアに回帰する。
多様なUGCデータセットに対する大規模な実験により、我々のモデルは既存のNR-VQA法を一貫して上回り、手作業による微粒なアノテーションを必要とせずに精度の向上を実現している。
平均ランクと線形相関 (SRCC:0.928, PLCC:0.938) では, 最先端の手法と比較して高い性能が得られる。
ソースコードとトレーニングされたモデル、およびユーザフレンドリーなデモは、https://github.com/xinyiW915/CAMP-VQAで公開されている。
関連論文リスト
- Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor [22.35724335601674]
映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
我々は、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する新しいVQAフレームワークDiffVQAを紹介する。
論文 参考訳(メタデータ) (2025-05-06T07:42:24Z) - ReLaX-VQA: Residual Fragment and Layer Stack Extraction for Enhancing Video Quality Assessment [35.00766551093652]
ReLaX-VQAは、NRVQA(No-Reference Video Quality Assessment)モデルである。
これは、オリジナルの圧縮されていないビデオに言及することなく、多様なビデオコンテンツの品質を評価するという課題に対処することを目的としている。
NR-VQA法を一貫して上回り、平均Sスコアは0.8658、PLCCは0.8873である。
論文 参考訳(メタデータ) (2024-07-16T08:33:55Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。