論文の概要: Investigating Tradeoffs in Real-World Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2111.12704v1
- Date: Wed, 24 Nov 2021 18:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 16:26:58.762067
- Title: Investigating Tradeoffs in Real-World Video Super-Resolution
- Title(参考訳): リアルタイムビデオスーパーリゾリューションにおけるトレードオフ調査
- Authors: Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy
- Abstract要約: 実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
- 参考スコア(独自算出の注目度): 90.81396836308085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity and complexity of degradations in real-world video
super-resolution (VSR) pose non-trivial challenges in inference and training.
First, while long-term propagation leads to improved performance in cases of
mild degradations, severe in-the-wild degradations could be exaggerated through
propagation, impairing output quality. To balance the tradeoff between detail
synthesis and artifact suppression, we found an image pre-cleaning stage
indispensable to reduce noises and artifacts prior to propagation. Equipped
with a carefully designed cleaning module, our RealBasicVSR outperforms
existing methods in both quality and efficiency. Second, real-world VSR models
are often trained with diverse degradations to improve generalizability,
requiring increased batch size to produce a stable gradient. Inevitably, the
increased computational burden results in various problems, including 1)
speed-performance tradeoff and 2) batch-length tradeoff. To alleviate the first
tradeoff, we propose a stochastic degradation scheme that reduces up to 40\% of
training time without sacrificing performance. We then analyze different
training settings and suggest that employing longer sequences rather than
larger batches during training allows more effective uses of temporal
information, leading to more stable performance during inference. To facilitate
fair comparisons, we propose the new VideoLQ dataset, which contains a large
variety of real-world low-quality video sequences containing rich textures and
patterns. Our dataset can serve as a common ground for benchmarking. Code,
models, and the dataset will be made publicly available.
- Abstract(参考訳): 実世界のビデオ超解像(VSR)における劣化の多様性と複雑さは、推論とトレーニングにおいて非自明な課題をもたらす。
第一に, 長期伝搬は軽度劣化の場合には性能が向上するが, 重度劣化は伝播によって誇張され, 出力品質を損なう可能性がある。
ディテール合成とアーティファクト抑制のトレードオフのバランスをとるために,伝搬前にノイズやアーティファクトを減らすために,クリーニング前の画像が不可欠であることを見出した。
私たちのRealBasicVSRは、慎重に設計されたクリーニングモジュールを備えており、品質と効率の両方で既存の手法より優れています。
第二に、現実のVSRモデルは一般化性を改善するために様々な劣化で訓練され、安定した勾配を生み出すためにバッチサイズを増やす必要がある。
必然的に計算負荷の増加は、様々な問題を引き起こす。
1)スピードパフォーマンストレードオフと
2) バッチ長トレードオフ。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる確率分解方式を提案する。
次に,異なるトレーニング設定を分析し,トレーニング中により大きなバッチではなく長いシーケンスを使用することで,時間的情報のより効果的な利用が可能となり,推論時のパフォーマンスが向上することを示す。
そこで本研究では,多様なテクスチャやパターンを含む多種多様な低品質映像系列を含むビデオLQデータセットを提案する。
私たちのデータセットは、ベンチマークの共通基盤として機能します。
コード、モデル、データセットは公開される予定だ。
関連論文リスト
- Motion-Guided Latent Diffusion for Temporally Consistent Real-world
Video Super-resolution [16.602446230909234]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Expanding Synthetic Real-World Degradations for Blind Video Super
Resolution [3.474523163017713]
ビデオ超解像(VSR)技術はここ数年で大幅に改善され、合成データに顕著な性能を示した。
しかし、実世界のビデオデータにおけるそれらのパフォーマンスは、実世界の劣化と不整合のビデオフレームの複雑さに悩まされている。
本稿では,合成学習データセットにおける実世界の劣化について述べる。
論文 参考訳(メタデータ) (2023-05-04T08:58:31Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure
Synthetic Data [17.529045507657944]
我々は、強力なESRGANを実用的修復アプリケーション(Real-ESRGAN)に拡張する。
複雑な実世界の劣化をシミュレートするために、高次劣化モデリングプロセスを導入する。
また、合成プロセスにおける共通リングやオーバーシュートアーティファクトについても検討する。
論文 参考訳(メタデータ) (2021-07-22T17:43:24Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - Joint Generative Learning and Super-Resolution For Real-World
Camera-Screen Degradation [6.14297871633911]
現実世界の単一画像超解像(SISR)タスクでは、低解像度画像はより複雑な劣化に苦しむ。
本稿では,カメラ画面の劣化に着目し,実世界のデータセット(Cam-ScreenSR)を構築する。
まず、ダウンサンプリング劣化GAN(DD-GAN)をトレーニングし、その分解をモデル化し、より多様なLR画像を生成する。
そして、二重残差チャネルアテンションネットワーク(DuRCAN)がSR画像の復元を学習する。
論文 参考訳(メタデータ) (2020-08-01T07:10:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。