論文の概要: DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor
- arxiv url: http://arxiv.org/abs/2505.03261v1
- Date: Tue, 06 May 2025 07:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.243944
- Title: DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor
- Title(参考訳): DiffVQA:拡散特徴エクストラクタを用いた映像品質評価
- Authors: Wei-Ting Chen, Yu-Jiet Vong, Yi-Tsung Lee, Sy-Yen Kuo, Qiang Gao, Sizhuo Ma, Jian Wang,
- Abstract要約: 映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
我々は、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する新しいVQAフレームワークDiffVQAを紹介する。
- 参考スコア(独自算出の注目度): 22.35724335601674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Quality Assessment (VQA) aims to evaluate video quality based on perceptual distortions and human preferences. Despite the promising performance of existing methods using Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs), they often struggle to align closely with human perceptions, particularly in diverse real-world scenarios. This challenge is exacerbated by the limited scale and diversity of available datasets. To address this limitation, we introduce a novel VQA framework, DiffVQA, which harnesses the robust generalization capabilities of diffusion models pre-trained on extensive datasets. Our framework adapts these models to reconstruct identical input frames through a control module. The adapted diffusion model is then used to extract semantic and distortion features from a resizing branch and a cropping branch, respectively. To enhance the model's ability to handle long-term temporal dynamics, a parallel Mamba module is introduced, which extracts temporal coherence augmented features that are merged with the diffusion features to predict the final score. Experiments across multiple datasets demonstrate DiffVQA's superior performance on intra-dataset evaluations and its exceptional generalization across datasets. These results confirm that leveraging a diffusion model as a feature extractor can offer enhanced VQA performance compared to CNN and ViT backbones.
- Abstract(参考訳): 映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を使った既存の手法の有望な性能にもかかわらず、それらは人間の知覚、特に様々な現実世界のシナリオと密接に連携するのに苦労することが多い。
この課題は、利用可能なデータセットのスケールと多様性の制限によって悪化する。
この制限に対処するために、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する、新しいVQAフレームワークであるDiffVQAを導入する。
我々のフレームワークは、制御モジュールを通して同一の入力フレームを再構成するためにこれらのモデルに適応する。
次に、適応拡散モデルを用いて、縮小枝と収穫枝からそれぞれ意味的特徴と歪み特徴を抽出する。
長期時間的ダイナミクスを扱うモデルの能力を高めるために,拡散特徴とマージされた時間的コヒーレンス拡張特徴を抽出し,最終的なスコアを予測する並列なMambaモジュールが導入された。
複数のデータセットにわたる実験は、データセット内評価におけるDiffVQAの優れたパフォーマンスとデータセット間の例外的な一般化を示している。
これらの結果から,機能抽出器として拡散モデルを活用することで,CNNやViTのバックボーンと比較してVQA性能が向上することが確認された。
関連論文リスト
- Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild [27.195339506769457]
映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。
ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。
PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
論文 参考訳(メタデータ) (2024-05-28T02:37:29Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - PeQuENet: Perceptual Quality Enhancement of Compressed Video with
Adaptation- and Attention-based Network [27.375830262287163]
本稿では,圧縮ビデオの知覚品質を高めるために,GAN(Generative Adversarial Network)フレームワークを提案する。
我々のフレームワークは、単一のモデルにおける異なる量子化パラメータ(QP)への注意と適応を含む。
実験により,提案したPeQuENetの圧縮圧縮画質向上アルゴリズムと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-16T02:49:28Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。