論文の概要: VFHQ: A High-Quality Dataset and Benchmark for Video Face
Super-Resolution
- arxiv url: http://arxiv.org/abs/2205.03409v1
- Date: Fri, 6 May 2022 16:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 14:41:12.689868
- Title: VFHQ: A High-Quality Dataset and Benchmark for Video Face
Super-Resolution
- Title(参考訳): VFHQ:ビデオの超解像のための高品質データセットとベンチマーク
- Authors: Liangbin Xie. Xintao Wang, Honglun Zhang, Chao Dong, Ying Shan
- Abstract要約: 高品質なビデオ顔データセット(VFHQ)を収集する,自動かつスケーラブルなパイプラインを開発した。
VFHQには、さまざまなインタビューシナリオの高忠実度クリップが16,000ドル以上含まれている。
ビデオの一貫性の問題を排除する上で,時間的情報が重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 22.236432686296233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing video face super-resolution (VFSR) methods are trained
and evaluated on VoxCeleb1, which is designed specifically for speaker
identification and the frames in this dataset are of low quality. As a
consequence, the VFSR models trained on this dataset can not output
visual-pleasing results. In this paper, we develop an automatic and scalable
pipeline to collect a high-quality video face dataset (VFHQ), which contains
over $16,000$ high-fidelity clips of diverse interview scenarios. To verify the
necessity of VFHQ, we further conduct experiments and demonstrate that VFSR
models trained on our VFHQ dataset can generate results with sharper edges and
finer textures than those trained on VoxCeleb1. In addition, we show that the
temporal information plays a pivotal role in eliminating video consistency
issues as well as further improving visual performance. Based on VFHQ, by
analyzing the benchmarking study of several state-of-the-art algorithms under
bicubic and blind settings. See our project page:
https://liangbinxie.github.io/projects/vfhq
- Abstract(参考訳): 既存のビデオフェース・スーパーレゾリューション(VFSR)法のほとんどは、話者識別に特化して設計されたVoxCeleb1で訓練・評価されており、このデータセットのフレームは低品質である。
結果として、このデータセットでトレーニングされたVFSRモデルは、視覚的な供給結果を出力できない。
本稿では,高品質な映像顔データセット(VFHQ)を自動かつスケーラブルに収集するパイプラインを開発し,多様なインタビューシナリオの高忠実度クリップを16,000ドル以上で提供する。
VFHQの必要性を検証するために、さらに実験を行い、VFHQデータセットでトレーニングされたVFSRモデルが、VoxCeleb1でトレーニングされたモデルよりもシャープなエッジときめの細かいテクスチャで結果を生成することを実証する。
さらに,映像の整合性問題を排除し,視覚的パフォーマンスを向上させる上で,時間的情報が重要な役割を担っていることを示す。
VFHQに基づいて、バイコビックおよびブラインド設定下でのいくつかの最先端アルゴリズムのベンチマーク研究を分析する。
プロジェクトページ: https://liangbinxie.github.io/projects/vfhq
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Bridging High-Quality Audio and Video via Language for Sound Effects
Retrieval from Visual Queries [18.224608377111533]
ビデオ中のモーメントにマッチする適切なサウンドエフェクト(SFX)を見つけるのは難しく、時間を要する作業です。
ビデオフレームからHQ SFXを推薦するフレームワークを提案する。
自動データキュレーションパイプラインを用いてトレーニングした本システムは,Wildデータに基づいてトレーニングしたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-08-17T16:38:30Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。