論文の概要: FVQ: A Large-Scale Dataset and A LMM-based Method for Face Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2504.09255v1
- Date: Sat, 12 Apr 2025 15:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:17.994884
- Title: FVQ: A Large-Scale Dataset and A LMM-based Method for Face Video Quality Assessment
- Title(参考訳): FVQ: 顔映像品質評価のための大規模データセットとLMMに基づく方法
- Authors: Sijing Wu, Yunhao Li, Ziwen Xu, Yixuan Gao, Huiyu Duan, Wei Sun, Guangtao Zhai,
- Abstract要約: 顔映像品質評価(FVQA)は、一般的な映像品質評価(VQA)に加え、検討すべきである。
FVQ-20Kは2万件の顔ビデオとそれに対応する平均世論スコア(MOS)アノテーションを含む。
また,FVQ-Raterという特殊なFVQA手法を提案する。
- 参考スコア(独自算出の注目度): 36.65802469575334
- License:
- Abstract: Face video quality assessment (FVQA) deserves to be explored in addition to general video quality assessment (VQA), as face videos are the primary content on social media platforms and human visual system (HVS) is particularly sensitive to human faces. However, FVQA is rarely explored due to the lack of large-scale FVQA datasets. To fill this gap, we present the first large-scale in-the-wild FVQA dataset, FVQ-20K, which contains 20,000 in-the-wild face videos together with corresponding mean opinion score (MOS) annotations. Along with the FVQ-20K dataset, we further propose a specialized FVQA method named FVQ-Rater to achieve human-like rating and scoring for face video, which is the first attempt to explore the potential of large multimodal models (LMMs) for the FVQA task. Concretely, we elaborately extract multi-dimensional features including spatial features, temporal features, and face-specific features (i.e., portrait features and face embeddings) to provide comprehensive visual information, and take advantage of the LoRA-based instruction tuning technique to achieve quality-specific fine-tuning, which shows superior performance on both FVQ-20K and CFVQA datasets. Extensive experiments and comprehensive analysis demonstrate the significant potential of the FVQ-20K dataset and FVQ-Rater method in promoting the development of FVQA.
- Abstract(参考訳): 顔画像の品質評価(FVQA)は、一般的な映像品質評価(VQA)に加えて、ソーシャルメディアプラットフォームにおける主要なコンテンツであり、ヒューマン・ビジュアル・システム(HVS)は人間の顔に特に敏感であるため、検討すべきである。
しかし、大規模なFVQAデータセットがないため、FVQAは滅多に探索されない。
このギャップを埋めるために、我々は最初の大規模なFVQAデータセットであるFVQ-20K(FVQ-20K)を提示する。
FVQ-20Kデータセットとともに、FVQ-Raterと呼ばれる特殊なFVQA手法を提案し、FVQAタスクのための大規模マルチモーダルモデル(LMM)の可能性を探究する最初の試みである、ヒューマンライクな評価と顔画像のスコアリングを実現する。
具体的には、空間的特徴、時間的特徴、顔特有の特徴(例えば、ポートレート特徴、顔埋め込み)を含む多次元的特徴を精巧に抽出して、包括的視覚情報を提供するとともに、FVQ-20KデータセットとCFVQAデータセットの両方において優れた性能を示す品質特異的微調整を実現するために、LoRAベースの命令チューニング技術を活用する。
FVQ-20KデータセットとFVQ-RaterメソッドがFVQAの開発を促進する可能性を示している。
関連論文リスト
- ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。
両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。
ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-12-29T10:13:30Z) - Video Quality Assessment: A Comprehensive Survey [55.734935003021576]
映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。
本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文 参考訳(メタデータ) (2024-12-04T05:25:17Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。