論文の概要: Investigating Tradeoffs in Real-World Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2111.12704v1
- Date: Wed, 24 Nov 2021 18:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 16:26:58.762067
- Title: Investigating Tradeoffs in Real-World Video Super-Resolution
- Title(参考訳): リアルタイムビデオスーパーリゾリューションにおけるトレードオフ調査
- Authors: Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy
- Abstract要約: 実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
- 参考スコア(独自算出の注目度): 90.81396836308085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity and complexity of degradations in real-world video
super-resolution (VSR) pose non-trivial challenges in inference and training.
First, while long-term propagation leads to improved performance in cases of
mild degradations, severe in-the-wild degradations could be exaggerated through
propagation, impairing output quality. To balance the tradeoff between detail
synthesis and artifact suppression, we found an image pre-cleaning stage
indispensable to reduce noises and artifacts prior to propagation. Equipped
with a carefully designed cleaning module, our RealBasicVSR outperforms
existing methods in both quality and efficiency. Second, real-world VSR models
are often trained with diverse degradations to improve generalizability,
requiring increased batch size to produce a stable gradient. Inevitably, the
increased computational burden results in various problems, including 1)
speed-performance tradeoff and 2) batch-length tradeoff. To alleviate the first
tradeoff, we propose a stochastic degradation scheme that reduces up to 40\% of
training time without sacrificing performance. We then analyze different
training settings and suggest that employing longer sequences rather than
larger batches during training allows more effective uses of temporal
information, leading to more stable performance during inference. To facilitate
fair comparisons, we propose the new VideoLQ dataset, which contains a large
variety of real-world low-quality video sequences containing rich textures and
patterns. Our dataset can serve as a common ground for benchmarking. Code,
models, and the dataset will be made publicly available.
- Abstract(参考訳): 実世界のビデオ超解像(VSR)における劣化の多様性と複雑さは、推論とトレーニングにおいて非自明な課題をもたらす。
第一に, 長期伝搬は軽度劣化の場合には性能が向上するが, 重度劣化は伝播によって誇張され, 出力品質を損なう可能性がある。
ディテール合成とアーティファクト抑制のトレードオフのバランスをとるために,伝搬前にノイズやアーティファクトを減らすために,クリーニング前の画像が不可欠であることを見出した。
私たちのRealBasicVSRは、慎重に設計されたクリーニングモジュールを備えており、品質と効率の両方で既存の手法より優れています。
第二に、現実のVSRモデルは一般化性を改善するために様々な劣化で訓練され、安定した勾配を生み出すためにバッチサイズを増やす必要がある。
必然的に計算負荷の増加は、様々な問題を引き起こす。
1)スピードパフォーマンストレードオフと
2) バッチ長トレードオフ。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる確率分解方式を提案する。
次に,異なるトレーニング設定を分析し,トレーニング中により大きなバッチではなく長いシーケンスを使用することで,時間的情報のより効果的な利用が可能となり,推論時のパフォーマンスが向上することを示す。
そこで本研究では,多様なテクスチャやパターンを含む多種多様な低品質映像系列を含むビデオLQデータセットを提案する。
私たちのデータセットは、ベンチマークの共通基盤として機能します。
コード、モデル、データセットは公開される予定だ。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution [38.79439380482431]
実世界の超解像(RWSR)は低分解能入力における未知の劣化に直面している。
既存の手法では、学習インプットの複雑な合成拡張を通じて視覚一般モデルを学習することでこの問題にアプローチする。
実世界の劣化に対する教師なしRWSRに対処するための,新しい相互距離蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-10T01:46:40Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - Expanding Synthetic Real-World Degradations for Blind Video Super
Resolution [3.474523163017713]
ビデオ超解像(VSR)技術はここ数年で大幅に改善され、合成データに顕著な性能を示した。
しかし、実世界のビデオデータにおけるそれらのパフォーマンスは、実世界の劣化と不整合のビデオフレームの複雑さに悩まされている。
本稿では,合成学習データセットにおける実世界の劣化について述べる。
論文 参考訳(メタデータ) (2023-05-04T08:58:31Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure
Synthetic Data [17.529045507657944]
我々は、強力なESRGANを実用的修復アプリケーション(Real-ESRGAN)に拡張する。
複雑な実世界の劣化をシミュレートするために、高次劣化モデリングプロセスを導入する。
また、合成プロセスにおける共通リングやオーバーシュートアーティファクトについても検討する。
論文 参考訳(メタデータ) (2021-07-22T17:43:24Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。