論文の概要: CP-LLM: Context and Pixel Aware Large Language Model for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2505.16025v1
- Date: Wed, 21 May 2025 21:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.913683
- Title: CP-LLM: Context and Pixel Aware Large Language Model for Video Quality Assessment
- Title(参考訳): CP-LLM:ビデオ品質評価のためのコンテキスト・画素対応大規模言語モデル
- Authors: Wen Wen, Yaohong Wu, Yue Sheng, Neil Birkbeck, Balu Adsumilli, Yilin Wang,
- Abstract要約: CP-LLM(Context and Pixel aware Large Language Model)を紹介する。
CP-LLMは、言語デコーダとともに、高レベル(ビデオコンテキスト)と低レベル(ピクセル歪み)の粒度の両方で知覚品質を独立に解析するために設計されたデュアルビジョンエンコーダを備えている。
実験により, CP-LLMは, 確立されたVQAベンチマーク上での最先端のクロスデータセット性能と, 画素歪みに対する優れたロバスト性を実現することを示した。
- 参考スコア(独自算出の注目度): 25.10124067341784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video quality assessment (VQA) is a challenging research topic with broad applications. Effective VQA necessitates sensitivity to pixel-level distortions and a comprehensive understanding of video context to accurately determine the perceptual impact of distortions. Traditional hand-crafted and learning-based VQA models mainly focus on pixel-level distortions and lack contextual understanding, while recent LLM-based models struggle with sensitivity to small distortions or handle quality scoring and description as separate tasks. To address these shortcomings, we introduce CP-LLM: a Context and Pixel aware Large Language Model. CP-LLM is a novel multimodal LLM architecture featuring dual vision encoders designed to independently analyze perceptual quality at both high-level (video context) and low-level (pixel distortion) granularity, along with a language decoder subsequently reasons about the interplay between these aspects. This design enables CP-LLM to simultaneously produce robust quality scores and interpretable quality descriptions, with enhanced sensitivity to pixel distortions (e.g. compression artifacts). The model is trained via a multi-task pipeline optimizing for score prediction, description generation, and pairwise comparisons. Experiment results demonstrate that CP-LLM achieves state-of-the-art cross-dataset performance on established VQA benchmarks and superior robustness to pixel distortions, confirming its efficacy for comprehensive and practical video quality assessment in real-world scenarios.
- Abstract(参考訳): ビデオ品質アセスメント(VQA)は幅広い応用の課題である。
有効VQAは、歪みの知覚的影響を正確に判断するために、ピクセルレベルの歪みに対する感度と、ビデオコンテキストの包括的な理解を必要とする。
従来の手作りの学習ベースのVQAモデルは、主にピクセルレベルの歪みに焦点を当て、文脈的理解が欠如している。
これらの欠点に対処するために、CP-LLM:ContextとPixelを意識した大規模言語モデルを紹介します。
CP-LLMは、高レベル(ビデオコンテキスト)と低レベル(ピクセル歪み)の粒度の両方で知覚品質を独立に解析するために設計されたデュアルビジョンエンコーダを特徴とする、新しいマルチモーダルLCMアーキテクチャである。
この設計により、CP-LLMは高い品質スコアと解釈可能な品質記述を同時に生成でき、画素歪みに対する感度が向上する(例えば圧縮アーティファクト)。
このモデルは、スコア予測、記述生成、ペアワイズ比較を最適化するマルチタスクパイプラインを通じてトレーニングされる。
実験の結果、CP-LLMは確立されたVQAベンチマークで最先端のクロスデータセット性能と画素歪みに対する優れた堅牢性を実現し、実世界のシナリオにおける包括的で実用的なビデオ品質評価の有効性を確認した。
関連論文リスト
- DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。
本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。
提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文 参考訳(メタデータ) (2024-12-12T06:13:00Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - MRET: Multi-resolution Transformer for Video Quality Assessment [37.355412115794195]
ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T21:48:49Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。