論文の概要: Investigating Tradeoffs in Real-World Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2111.12704v1
- Date: Wed, 24 Nov 2021 18:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 16:26:58.762067
- Title: Investigating Tradeoffs in Real-World Video Super-Resolution
- Title(参考訳): リアルタイムビデオスーパーリゾリューションにおけるトレードオフ調査
- Authors: Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy
- Abstract要約: 実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
- 参考スコア(独自算出の注目度): 90.81396836308085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity and complexity of degradations in real-world video
super-resolution (VSR) pose non-trivial challenges in inference and training.
First, while long-term propagation leads to improved performance in cases of
mild degradations, severe in-the-wild degradations could be exaggerated through
propagation, impairing output quality. To balance the tradeoff between detail
synthesis and artifact suppression, we found an image pre-cleaning stage
indispensable to reduce noises and artifacts prior to propagation. Equipped
with a carefully designed cleaning module, our RealBasicVSR outperforms
existing methods in both quality and efficiency. Second, real-world VSR models
are often trained with diverse degradations to improve generalizability,
requiring increased batch size to produce a stable gradient. Inevitably, the
increased computational burden results in various problems, including 1)
speed-performance tradeoff and 2) batch-length tradeoff. To alleviate the first
tradeoff, we propose a stochastic degradation scheme that reduces up to 40\% of
training time without sacrificing performance. We then analyze different
training settings and suggest that employing longer sequences rather than
larger batches during training allows more effective uses of temporal
information, leading to more stable performance during inference. To facilitate
fair comparisons, we propose the new VideoLQ dataset, which contains a large
variety of real-world low-quality video sequences containing rich textures and
patterns. Our dataset can serve as a common ground for benchmarking. Code,
models, and the dataset will be made publicly available.
- Abstract(参考訳): 実世界のビデオ超解像(VSR)における劣化の多様性と複雑さは、推論とトレーニングにおいて非自明な課題をもたらす。
第一に, 長期伝搬は軽度劣化の場合には性能が向上するが, 重度劣化は伝播によって誇張され, 出力品質を損なう可能性がある。
ディテール合成とアーティファクト抑制のトレードオフのバランスをとるために,伝搬前にノイズやアーティファクトを減らすために,クリーニング前の画像が不可欠であることを見出した。
私たちのRealBasicVSRは、慎重に設計されたクリーニングモジュールを備えており、品質と効率の両方で既存の手法より優れています。
第二に、現実のVSRモデルは一般化性を改善するために様々な劣化で訓練され、安定した勾配を生み出すためにバッチサイズを増やす必要がある。
必然的に計算負荷の増加は、様々な問題を引き起こす。
1)スピードパフォーマンストレードオフと
2) バッチ長トレードオフ。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる確率分解方式を提案する。
次に,異なるトレーニング設定を分析し,トレーニング中により大きなバッチではなく長いシーケンスを使用することで,時間的情報のより効果的な利用が可能となり,推論時のパフォーマンスが向上することを示す。
そこで本研究では,多様なテクスチャやパターンを含む多種多様な低品質映像系列を含むビデオLQデータセットを提案する。
私たちのデータセットは、ベンチマークの共通基盤として機能します。
コード、モデル、データセットは公開される予定だ。
関連論文リスト
- Improved Training Technique for Latent Consistency Models [18.617862678160243]
一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。
画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。
我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
論文 参考訳(メタデータ) (2025-02-03T15:25:58Z) - DiffVSR: Enhancing Real-World Video Super-Resolution with Diffusion Models for Advanced Visual Quality and Temporal Consistency [25.756755602342942]
実世界のビデオ超解像のための拡散型フレームワークであるDiffVSRを提案する。
シーケンス内コヒーレンスのために,マルチスケールの時間的アテンションモジュールと時間的拡張型VAEデコーダを開発した。
本稿では, 単純な分解から複雑な分解へ移行し, 堅牢な最適化を実現するプログレッシブ・ラーニング・ストラテジーを提案する。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Expanding Synthetic Real-World Degradations for Blind Video Super
Resolution [3.474523163017713]
ビデオ超解像(VSR)技術はここ数年で大幅に改善され、合成データに顕著な性能を示した。
しかし、実世界のビデオデータにおけるそれらのパフォーマンスは、実世界の劣化と不整合のビデオフレームの複雑さに悩まされている。
本稿では,合成学習データセットにおける実世界の劣化について述べる。
論文 参考訳(メタデータ) (2023-05-04T08:58:31Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。