論文の概要: Progressive Training of A Two-Stage Framework for Video Restoration
- arxiv url: http://arxiv.org/abs/2204.09924v1
- Date: Thu, 21 Apr 2022 07:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 14:23:36.963003
- Title: Progressive Training of A Two-Stage Framework for Video Restoration
- Title(参考訳): 映像復元のための2段階フレームワークのプログレッシブトレーニング
- Authors: Meisong Zheng, Qunliang Xing, Minglang Qiao, Mai Xu, Lai Jiang, Huaida
Liu and Ying Chen
- Abstract要約: マルチフレームリカレントネットワークとシングルフレームトランスを含む2段階のフレームワークを提案する。
NTIRE 2022のスーパーレゾリューションと圧縮ビデオの画質向上で2つのチャンピオンを獲得している。
- 参考スコア(独自算出の注目度): 46.3264296278162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As a widely studied task, video restoration aims to enhance the quality of
the videos with multiple potential degradations, such as noises, blurs and
compression artifacts. Among video restorations, compressed video quality
enhancement and video super-resolution are two of the main tacks with
significant values in practical scenarios. Recently, recurrent neural networks
and transformers attract increasing research interests in this field, due to
their impressive capability in sequence-to-sequence modeling. However, the
training of these models is not only costly but also relatively hard to
converge, with gradient exploding and vanishing problems. To cope with these
problems, we proposed a two-stage framework including a multi-frame recurrent
network and a single-frame transformer. Besides, multiple training strategies,
such as transfer learning and progressive training, are developed to shorten
the training time and improve the model performance. Benefiting from the above
technical contributions, our solution wins two champions and a runner-up in the
NTIRE 2022 super-resolution and quality enhancement of compressed video
challenges.
- Abstract(参考訳): 広範に研究されている課題として、ビデオ復元は、ノイズ、ぼかし、圧縮アーティファクトなどの潜在的な劣化を伴うビデオの品質を高めることを目的としている。
ビデオ修復のうち、圧縮されたビデオ品質向上とビデオ超解像は、実用シナリオにおいて重要な価値を持つ2つの主要なタックである。
近年、ニューラルネットワークやトランスフォーマは、シーケンス・トゥ・シーケンス・モデリングの素晴らしい能力によって、この分野で研究の関心が高まっている。
しかし、これらのモデルのトレーニングはコストがかかるだけでなく、比較的収束が難しく、勾配が爆発し、問題が消える。
これらの問題に対処するため,マルチフレームリカレントネットワークと単一フレームトランスを含む2段階のフレームワークを提案する。
さらに,移動学習や進行訓練などの複数の訓練戦略を開発し,訓練時間を短縮し,モデル性能を向上させる。
以上の技術的貢献から得られたソリューションは、2つのチャンピオンを獲得し、圧縮ビデオ課題の超高解像度化と品質向上のNTIRE 2022で優勝した。
関連論文リスト
- VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - VJT: A Video Transformer on Joint Tasks of Deblurring, Low-light
Enhancement and Denoising [45.349350685858276]
ビデオ復元作業は、低品質な観察から高品質な映像を復元することを目的としている。
ビデオはしばしば、ぼやけ、低照度、ノイズなど、さまざまな種類の劣化に直面します。
本稿では,映像の劣化,低照度化,雑音化といった共同作業に対して,効率的なエンドツーエンドビデオトランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T10:27:56Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。