論文の概要: VideoGigaGAN: Towards Detail-rich Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2404.12388v1
- Date: Thu, 18 Apr 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 11:52:23.130351
- Title: VideoGigaGAN: Towards Detail-rich Video Super-Resolution
- Title(参考訳): VideoGigaGAN:ビデオの超解像化を目指す
- Authors: Yiran Xu, Taesung Park, Richard Zhang, Yang Zhou, Eli Shechtman, Feng Liu, Jia-Bin Huang, Difan Liu,
- Abstract要約: ビデオ・スーパーレゾリューション(VSR)アプローチは、アップサンプリングされたビデオに顕著な時間的一貫性を示す。
本稿では,高頻度の細部と時間的整合性を持つビデオを生成する新しい生成型VSRモデルであるVideoGigaGANを紹介する。
- 参考スコア(独自算出の注目度): 41.4147016287269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video super-resolution (VSR) approaches have shown impressive temporal consistency in upsampled videos. However, these approaches tend to generate blurrier results than their image counterparts as they are limited in their generative capability. This raises a fundamental question: can we extend the success of a generative image upsampler to the VSR task while preserving the temporal consistency? We introduce VideoGigaGAN, a new generative VSR model that can produce videos with high-frequency details and temporal consistency. VideoGigaGAN builds upon a large-scale image upsampler -- GigaGAN. Simply inflating GigaGAN to a video model by adding temporal modules produces severe temporal flickering. We identify several key issues and propose techniques that significantly improve the temporal consistency of upsampled videos. Our experiments show that, unlike previous VSR methods, VideoGigaGAN generates temporally consistent videos with more fine-grained appearance details. We validate the effectiveness of VideoGigaGAN by comparing it with state-of-the-art VSR models on public datasets and showcasing video results with $8\times$ super-resolution.
- Abstract(参考訳): ビデオ・スーパーレゾリューション(VSR)アプローチは、アップサンプリングされたビデオに顕著な時間的一貫性を示す。
しかしながら、これらのアプローチは、生成能力に制限があるため、画像よりもぼやけた結果を生成する傾向がある。
時間的一貫性を維持しながら、生成的イメージアップサンプリングをVSRタスクに拡張できるだろうか?
本稿では,高頻度の細部と時間的整合性を持つビデオを生成する新しい生成型VSRモデルであるVideoGigaGANを紹介する。
VideoGigaGANは、大規模なイメージアップサンプラー、GigaGANをベースとしている。
時間的加群を追加することで、GigaGANをビデオモデルに単純に膨らませることによって、重度の時間的フリッカリングが発生する。
我々は、いくつかの重要な問題を特定し、アップサンプリングされたビデオの時間的一貫性を大幅に改善する手法を提案する。
我々の実験では、従来のVSR法とは異なり、ビデオGigaGANはよりきめ細かな外観で時間的に一貫した映像を生成する。
ビデオGigaGANの有効性は、公開データセット上の最先端のVSRモデルと比較し、その結果を8\times$スーパーレゾリューションで示すことによって検証する。
関連論文リスト
- Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - A Novel Dual Dense Connection Network for Video Super-resolution [0.0]
ビデオ・スーパーレゾリューション(VSR)とは、対応する低解像度(LR)ビデオから高解像度(HR)ビデオの再構成を指す。
本稿では,高画質超解像(SR)を生成できる新しい二重高密度接続ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-05T12:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。