論文の概要: Learning Data-Driven Vector-Quantized Degradation Model for Animation
Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2303.09826v2
- Date: Wed, 20 Sep 2023 03:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 00:27:50.050976
- Title: Learning Data-Driven Vector-Quantized Degradation Model for Animation
Video Super-Resolution
- Title(参考訳): アニメーションビデオ超解像のための学習データ駆動ベクトル量子化分解モデル
- Authors: Zixi Tuo, Huan Yang, Jianlong Fu, Yujie Dun, Xueming Qian
- Abstract要約: アニメーションビデオの特徴を探求し、より実用的なアニメーションVSRモデルのための実世界のアニメーションデータの豊富な事前情報を活用する。
本稿では,グローバルな構造から局所的な詳細を分解する,マルチスケールなベクトル量子化分解モデルを提案する。
先行データを抽出するために、リッチコンテンツリアルアニメーション低品質(RAL)ビデオデータセットを収集する。
- 参考スコア(独自算出の注目度): 59.71387128485845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing real-world video super-resolution (VSR) methods focus on designing a
general degradation pipeline for open-domain videos while ignoring data
intrinsic characteristics which strongly limit their performance when applying
to some specific domains (eg., animation videos). In this paper, we thoroughly
explore the characteristics of animation videos and leverage the rich priors in
real-world animation data for a more practical animation VSR model. In
particular, we propose a multi-scale Vector-Quantized Degradation model for
animation video Super-Resolution (VQD-SR) to decompose the local details from
global structures and transfer the degradation priors in real-world animation
videos to a learned vector-quantized codebook for degradation modeling. A
rich-content Real Animation Low-quality (RAL) video dataset is collected for
extracting the priors. We further propose a data enhancement strategy for
high-resolution (HR) training videos based on our observation that existing HR
videos are mostly collected from the Web which contains conspicuous compression
artifacts. The proposed strategy is valid to lift the upper bound of animation
VSR performance, regardless of the specific VSR model. Experimental results
demonstrate the superiority of the proposed VQD-SR over state-of-the-art
methods, through extensive quantitative and qualitative evaluations of the
latest animation video super-resolution benchmark. The code and pre-trained
models can be downloaded at https://github.com/researchmm/VQD-SR.
- Abstract(参考訳): 既存の実世界のビデオ超解像法(VSR)は、特定のドメイン(例えばアニメーションビデオ)に適用する際のパフォーマンスを強く制限するデータ固有の特性を無視しながら、オープンドメインビデオの一般的な劣化パイプラインを設計することに焦点を当てている。
本稿では,アニメーション映像の特徴を徹底的に検討し,より実用的なアニメーションvsrモデルとして,実世界のアニメーションデータのリッチプリエントを活用する。
特に,大域構造から局所的な詳細を分解し,実世界のアニメーション映像の劣化前処理を学習ベクトル量子化コードブックに転送するアニメーションビデオスーパーレゾリューション(vqd-sr)のためのマルチスケールベクトル量子化分解モデルを提案する。
先行データを抽出するためのリッチコンテンツリアルアニメーション低品質ビデオデータセットを収集する。
さらに,既存のHRビデオが顕著な圧縮アーティファクトを含むWebから収集されるという観察に基づいて,高解像度(HR)トレーニングビデオのデータ強化戦略を提案する。
提案手法は,特定のVSRモデルによらず,アニメーションVSR性能の上限を引き上げることが有効である。
実験により,最新のアニメーションビデオ超高解像度ベンチマークの定量的および定性的評価により,提案手法よりもVQD-SRの方が優れていることが示された。
コードと事前訓練されたモデルはhttps://github.com/researchmm/VQD-SRでダウンロードできる。
関連論文リスト
- DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - Retargeting video with an end-to-end framework [14.270721529264929]
本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
論文 参考訳(メタデータ) (2023-11-08T04:56:41Z) - AnimeSR: Learning Real-World Super-Resolution Models for Animation
Videos [23.71771590274543]
本稿では,アニメーションビデオにおける実世界のビデオ超解像(VSR)の問題について検討し,実用的アニメーションVSRの3つの重要な改善点を明らかにする。
そこで本研究では,実際の低品質アニメーションビデオからこのような基本演算子を学習し,学習した演算子を劣化生成パイプラインに組み込むことを提案する。
提案手法であるAnimeSRは,実世界の低品質アニメーション映像を効果的かつ効率的に復元し,従来の最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-14T17:57:11Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Real-Time Video Super-Resolution by Joint Local Inference and Global
Parameter Estimation [0.0]
本稿では,2つのデジタルカメラ撮像過程を異なるスケールでシミュレーションし,トレーニングデータの合成を行う新しい手法を提案する。
本手法は,両画像が自然画像の特性を有する画像対を生成する。
低消費電力エッジデバイスにビデオSRをリアルタイムに適用できる効率的なCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-06T16:35:09Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。