論文の概要: Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2412.18933v2
- Date: Mon, 10 Nov 2025 03:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.303672
- Title: Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment
- Title(参考訳): 超高解像度映像品質評価のための時間的不整合誘導
- Authors: Yixiao Li, Xiaoyuan Yang, Weide Liu, Xin Jin, Xu Jia, Yukun Lai, Paul L Rosin, Haotao Liu, Wei Zhou,
- Abstract要約: 本稿では,フレームの時間的矛盾を定量化するための知覚指向アプローチを提案する。
人間の視覚システムに触発され,不整合誘導時間モジュールを開発した。
我々の手法は最先端のVQA手法よりも優れています。
- 参考スコア(独自算出の注目度): 63.811519474030234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As super-resolution (SR) techniques introduce unique distortions that fundamentally differ from those caused by traditional degradation processes (e.g., compression), there is an increasing demand for specialized video quality assessment (VQA) methods tailored to SR-generated content. One critical factor affecting perceived quality is temporal inconsistency, which refers to irregularities between consecutive frames. However, existing VQA approaches rarely quantify this phenomenon or explicitly investigate its relationship with human perception. Moreover, SR videos exhibit amplified inconsistency levels as a result of enhancement processes. In this paper, we propose \textit{Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment (TIG-SVQA)} that underscores the critical role of temporal inconsistency in guiding the quality assessment of SR videos. We first design a perception-oriented approach to quantify frame-wise temporal inconsistency. Based on this, we introduce the Inconsistency Highlighted Spatial Module, which localizes inconsistent regions at both coarse and fine scales. Inspired by the human visual system, we further develop an Inconsistency Guided Temporal Module that performs progressive temporal feature aggregation: (1) a consistency-aware fusion stage in which a visual memory capacity block adaptively determines the information load of each temporal segment based on inconsistency levels, and (2) an informative filtering stage for emphasizing quality-related features. Extensive experiments on both single-frame and multi-frame SR video scenarios demonstrate that our method significantly outperforms state-of-the-art VQA approaches. The code is publicly available at https://github.com/Lighting-YXLI/TIG-SVQA-main.
- Abstract(参考訳): 超解像(SR)技術は、従来の劣化過程(例えば圧縮)と根本的に異なる歪みを導入しているため、SR生成コンテンツに合わせた特殊な映像品質評価(VQA)手法の需要が高まっている。
知覚品質に影響する重要な要因の1つは時間的不整合であり、連続するフレーム間の不整合を指す。
しかしながら、既存のVQAアプローチは、この現象の定量化や、人間の知覚との関係を明確に調査することは滅多にない。
さらに、SRビデオは、強化プロセスの結果、不整合レベルが増幅された。
本稿では,SRビデオの品質評価を導く上での時間的不整合の重要性を浮き彫りにした,TIG-SVQA(textit{Temporal Inconsistency Guidance for Super- resolution Video Quality Assessment)を提案する。
まず、フレームワイドの時間的矛盾を定量化するための知覚指向アプローチを設計する。
そこで本研究では,不整合領域を粗大かつ微細なスケールでローカライズするInconsistency Highlighted Space Moduleを提案する。
人間の視覚システムにインスパイアされた,段階的な時間的特徴集約を行う不整合誘導時間モジュールをさらに発展させる:(1) 視覚記憶容量ブロックが不整合レベルに基づいて各時間的セグメントの情報負荷を適応的に決定する整合性認識融合ステージ,(2) 品質に関連した特徴を強調する情報フィルタリングステージ。
単一フレームと多フレームのSRビデオシナリオにおける大規模な実験により,本手法が最先端のVQA手法を著しく上回ることを示した。
コードはhttps://github.com/Lighting-YXLI/TIG-SVQA-mainで公開されている。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - ST-GREED: Space-Time Generalized Entropic Differences for Frame Rate
Dependent Video Quality Prediction [63.749184706461826]
本研究では, フレームレートが知覚品質に与える影響と, フレームレートと圧縮が, 知覚品質に与える影響について検討した。
本研究では,空間的および時間的帯域通過映像係数の統計を解析する空間時間生成エントロピー差(GREED)と呼ばれる客観的VQAモデルを提案する。
GREEDは、既存のVQAモデルと比較した場合、LIVE-YT-HFRデータベース上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-10-26T16:54:33Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。