論文の概要: FGSVQA: Frequency-Guided Short-form Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2605.20016v1
- Date: Tue, 19 May 2026 15:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.493301
- Title: FGSVQA: Frequency-Guided Short-form Video Quality Assessment
- Title(参考訳): FGSVQA: 周波数ガイドによる短いビデオ品質評価
- Authors: Xinyi Wang, Angeliki Katsenou, Junxiao Shen, David Bull,
- Abstract要約: ショートフォームビデオは、ユーザー生成コンテンツの品質評価に新たな課題をもたらす。
CLIPに基づく濃密なビジュアルエンコーダを用いたエンドツーエンドのビデオ品質評価フレームワークを提案する。
提案手法は, 平均階数と線形相関の点から, ショートフォーム映像データセットに対して高い性能を示すことを示す。
- 参考スコア(独自算出の注目度): 9.172799792564009
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Short-form video poses new challenges to the quality assessment of user-generated content (UGC) due to its complex generation pipeline, rapid content variation, and mixed distortions. To address this challenge, we propose an end-to-end video quality assessment (VQA) framework that employs a dense visual encoder based on CLIP, and incorporates compression priors derived from the frequency domain to generate artifact- and structure-aware weight maps for feature aggregation. By explicitly decomposing artifact, structure, and original visual feature branches and adaptively fusing them over time through a learned gating module, the proposed method achieves accurate and efficient quality prediction. Experimental results show that our method achieves strong performance on short-form video datasets in terms of average rank and linear correlation (SRCC: 0.736, PLCC: 0.787), while maintaining efficient inference runtime. The code and additional results are available at: https://github.com/xinyiW915/FGSVQA.
- Abstract(参考訳): ショートフォームビデオは、ユーザ生成コンテンツ(UGC)の品質評価に新たな課題をもたらす。
この課題に対処するために,CLIPに基づく濃密なビジュアルエンコーダを用いたエンドツーエンドビデオ品質評価(VQA)フレームワークを提案する。
人工物, 構造, オリジナル視覚特徴枝を明示的に分解し, 学習ゲーティングモジュールを通して時間とともに適応的に融合することにより, 精度と効率のよい品質予測を実現する。
実験の結果,提案手法は平均階数と線形相関 (SRCC: 0.736, PLCC: 0.787) の観点から, 高速な推論実行環境を維持しつつ, 短時間のビデオデータセット上で高い性能を達成することがわかった。
コードと追加結果は、https://github.com/xinyiW915/FGSVQA.comで公開されている。
関連論文リスト
- Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-10T16:37:47Z) - Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment [63.811519474030234]
本稿では,フレームの時間的矛盾を定量化するための知覚指向アプローチを提案する。
人間の視覚システムに触発され,不整合誘導時間モジュールを開発した。
我々の手法は最先端のVQA手法よりも優れています。
論文 参考訳(メタデータ) (2024-12-25T15:43:41Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Hierarchical Frequency-based Upsampling and Refining for Compressed Video Quality Enhancement [14.653248860008981]
圧縮ビデオ品質向上のための階層型周波数ベースアップサンプリング・精製ニューラルネットワーク(HFUR)を提案する。
ImpFreqUpは暗黙のDCT変換によって引き起こされたDCTドメインを利用して、粗い粒度転送によってDCTドメインの損失を正確に再構築する。
HIRを導入して、スケール間の相互協力と情報補償を容易にし、特徴マップをさらに洗練し、最終的な出力の視覚的品質を向上する。
論文 参考訳(メタデータ) (2024-03-18T08:13:26Z) - Temporal Coherent Test-Time Optimization for Robust Video Classification [55.432935503341064]
ディープニューラルネットワークは、実世界のデプロイでテストデータが破損したときに失敗する可能性がある。
テスト時の最適化は、テスト中に破損したデータに対して、モデルを堅牢性に適応する効果的な方法である。
テスト時間最適化における時間的情報を利用したロバストな分類手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T04:59:23Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。