論文の概要: KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception
- arxiv url: http://arxiv.org/abs/2503.10259v1
- Date: Thu, 13 Mar 2025 11:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:50.011193
- Title: KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception
- Title(参考訳): KVQ:Saliency-Guided Local Perceptionによるビデオ品質評価の強化
- Authors: Yunpeng Qu, Kun Yuan, Qizhi Xie, Ming Sun, Chao Zhou, Jian Wang,
- Abstract要約: 本研究では,グローバルな品質評価を効果的に行うための枠組みを提案する。
我々のフレームワークは視覚的満足度を抽出し、Fusion-Window Attention(FWA)とLocal Perception Constraint(LPC)を用いて注意を割り当てる。
局所的知覚を評価するために,地域アノテーションを用いたローカル知覚視覚品質(LPVQ)データセットを構築した。
- 参考スコア(独自算出の注目度): 14.849169694355512
- License:
- Abstract: Video Quality Assessment (VQA), which intends to predict the perceptual quality of videos, has attracted increasing attention. Due to factors like motion blur or specific distortions, the quality of different regions in a video varies. Recognizing the region-wise local quality within a video is beneficial for assessing global quality and can guide us in adopting fine-grained enhancement or transcoding strategies. Due to the heavy cost of annotating region-wise quality, the lack of ground truth constraints from relevant datasets further complicates the utilization of local perception. Inspired by the Human Visual System (HVS) that links global quality to the local texture of different regions and their visual saliency, we propose a Kaleidoscope Video Quality Assessment (KVQ) framework, which aims to effectively assess both saliency and local texture, thereby facilitating the assessment of global quality. Our framework extracts visual saliency and allocates attention using Fusion-Window Attention (FWA) while incorporating a Local Perception Constraint (LPC) to mitigate the reliance of regional texture perception on neighboring areas. KVQ obtains significant improvements across multiple scenarios on five VQA benchmarks compared to SOTA methods. Furthermore, to assess local perception, we establish a new Local Perception Visual Quality (LPVQ) dataset with region-wise annotations. Experimental results demonstrate the capability of KVQ in perceiving local distortions. KVQ models and the LPVQ dataset will be available at https://github.com/qyp2000/KVQ.
- Abstract(参考訳): 映像品質評価(VQA)は、映像の知覚的品質を予測することを目的としており、注目を集めている。
動きのぼやけや特定の歪みなどの要因により、動画内の異なる領域の質が異なる。
ビデオ内の局所的な品質を認識することは、グローバルな品質を評価する上で有用であり、きめ細かいエンハンスメントやトランスコーディング戦略を採用する上で、私たちを導くことができる。
地域的品質のアノテートに重いコストがかかるため、関連するデータセットからの根拠となる真理制約の欠如は、局所的な知覚の活用をさらに複雑にする。
HVS(Human Visual System)が着想を得て,世界品質を地域ごとの局所的テクスチャと視覚的サリエンスに結びつけることで,KVQ(Kleidoscope Video Quality Assessment)フレームワークを提案する。
筆者らの枠組みは視覚的満足度を抽出し,FWA(Fusion-Window Attention)を用いて,局所知覚制約(Local Perception Constraint, LPC)を組み込むことにより, 周辺地域のテクスチャ知覚の信頼性を緩和する。
KVQは、SOTA法と比較して、5つのVQAベンチマークで複数のシナリオで大幅に改善されている。
さらに,局所的な知覚を評価するために,地域アノテーションを用いたローカル知覚視覚品質(LPVQ)データセットを構築した。
実験により局所歪みの知覚におけるKVQの有用性が示された。
KVQモデルとLPVQデータセットはhttps://github.com/qyp2000/KVQで提供される。
関連論文リスト
- NeRF-NQA: No-Reference Quality Assessment for Scenes Generated by NeRF and Neural View Synthesis Methods [13.403739247879766]
NVS と NeRF の変種から合成した濃密に保存されたシーンに対する最初のノン参照品質評価手法である NeRF-NQA を提案する。
NeRF-NQAは、ビューワイズとポイントワイズの両方のアプローチを統合する共同品質評価戦略を採用している。
ビューワイズアプローチは、各合成ビューの空間的品質と全体ビュー間の一貫性を評価し、ポイントワイズアプローチはシーン表面の角質に焦点を当てる。
論文 参考訳(メタデータ) (2024-12-11T02:17:33Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Perceptual Quality Assessment of Omnidirectional Audio-visual Signals [37.73157112698111]
全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
論文 参考訳(メタデータ) (2023-07-20T12:21:26Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Patch-VQ: 'Patching Up' the Video Quality Problem [0.9786690381850356]
No-Reference (NR) Perceptual Video Quality Assessment (VQA) は、ソーシャルメディアおよびストリーミングメディアアプリケーションにおいて複雑で未解決で重要な問題である。
現在のNRモデルでは、実世界の"In-the-wild"ビデオデータ上での予測能力に制限がある。
私たちは、39,000の現実世界の歪曲したビデオと117,000の空間的局所化されたビデオパッチを含む、最も大きな(遠くまで)主観的なビデオ品質データセットを作成します。
論文 参考訳(メタデータ) (2020-11-27T03:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。