論文の概要: TINQ: Temporal Inconsistency Guided Blind Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2412.18933v1
- Date: Wed, 25 Dec 2024 15:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:38.878319
- Title: TINQ: Temporal Inconsistency Guided Blind Video Quality Assessment
- Title(参考訳): TINQ: 時間的不整合をガイドしたブラインドビデオの品質評価
- Authors: Yixiao Li, Xiaoyuan Yang, Weide Liu, Xin Jin, Xu Jia, Yukun Lai, Haotao Liu, Paul L Rosin, Wei Zhou,
- Abstract要約: Blind Video Quality Assessment (BVQA)は、ユーザ生成コンテンツ(UGC)ビデオに対して活発に研究されている。
最近の超解像(SR)技術はビデオに広く応用されている。
連続するフレーム間の不規則性を指す時間的不整合は、映像品質に関係している。
- 参考スコア(独自算出の注目度): 61.76431477117295
- License:
- Abstract: Blind video quality assessment (BVQA) has been actively researched for user-generated content (UGC) videos. Recently, super-resolution (SR) techniques have been widely applied in UGC. Therefore, an effective BVQA method for both UGC and SR scenarios is essential. Temporal inconsistency, referring to irregularities between consecutive frames, is relevant to video quality. Current BVQA approaches typically model temporal relationships in UGC videos using statistics of motion information, but inconsistencies remain unexplored. Additionally, different from temporal inconsistency in UGC videos, such inconsistency in SR videos is amplified due to upscaling algorithms. In this paper, we introduce the Temporal Inconsistency Guided Blind Video Quality Assessment (TINQ) metric, demonstrating that exploring temporal inconsistency is crucial for effective BVQA. Since temporal inconsistencies vary between UGC and SR videos, they are calculated in different ways. Based on this, a spatial module highlights inconsistent areas across consecutive frames at coarse and fine granularities. In addition, a temporal module aggregates features over time in two stages. The first stage employs a visual memory capacity block to adaptively segment the time dimension based on estimated complexity, while the second stage focuses on selecting key features. The stages work together through Consistency-aware Fusion Units to regress cross-time-scale video quality. Extensive experiments on UGC and SR video quality datasets show that our method outperforms existing state-of-the-art BVQA methods. Code is available at https://github.com/Lighting-YXLI/TINQ.
- Abstract(参考訳): Blind Video Quality Assessment (BVQA)は、ユーザ生成コンテンツ(UGC)ビデオに対して活発に研究されている。
近年,超高分解能(SR)技術がUGCに広く応用されている。
したがって,UGCシナリオとSRシナリオの両方に有効なBVQA手法が不可欠である。
連続するフレーム間の不規則性を指す時間的不整合は、映像品質に関係している。
現在のBVQAアプローチは、通常、動き情報の統計を用いてUGCビデオの時間関係をモデル化するが、矛盾は未解明のままである。
加えて、UGCビデオの時間的不整合とは違い、SRビデオの非整合性はアップスケーリングアルゴリズムによって増幅される。
本稿では、時間的不整合性誘導ブラインド映像品質評価(TINQ)指標を導入し、時間的不整合の探索が効果的なBVQAにとって重要であることを示す。
UGCビデオとSRビデオの間に時間的矛盾があるため、異なる方法で計算される。
これに基づいて、空間モジュールは連続するフレーム間の不整合領域を粗い粒度と細かい粒度で強調する。
さらに、時間モジュールは、2つのステージで時間とともに機能を集約する。
第1ステージは視覚記憶容量ブロックを使用して、推定された複雑さに基づいて時間次元を適応的に分割し、第2ステージは重要な特徴の選択に焦点を当てる。
ステージは、Consistency-aware Fusion Unitsを通じて協力して、大規模なビデオ品質を抑える。
UGCおよびSRビデオ品質データセットの大規模な実験により、我々の手法は既存の最先端のBVQA手法よりも優れていることが示された。
コードはhttps://github.com/Lighting-YXLI/TINQ.comで入手できる。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - ST-GREED: Space-Time Generalized Entropic Differences for Frame Rate
Dependent Video Quality Prediction [63.749184706461826]
本研究では, フレームレートが知覚品質に与える影響と, フレームレートと圧縮が, 知覚品質に与える影響について検討した。
本研究では,空間的および時間的帯域通過映像係数の統計を解析する空間時間生成エントロピー差(GREED)と呼ばれる客観的VQAモデルを提案する。
GREEDは、既存のVQAモデルと比較した場合、LIVE-YT-HFRデータベース上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-10-26T16:54:33Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。