Fugu-MT 論文翻訳(概要): Investigating Tradeoffs in Real-World Video Super-Resolution

論文の概要: Investigating Tradeoffs in Real-World Video Super-Resolution

arxiv url: http://arxiv.org/abs/2111.12704v1
Date: Wed, 24 Nov 2021 18:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-25 16:26:58.762067
Title: Investigating Tradeoffs in Real-World Video Super-Resolution
Title（参考訳）: リアルタイムビデオスーパーリゾリューションにおけるトレードオフ調査
Authors: Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy
Abstract要約: 実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
参考スコア（独自算出の注目度）: 90.81396836308085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The diversity and complexity of degradations in real-world video super-resolution (VSR) pose non-trivial challenges in inference and training. First, while long-term propagation leads to improved performance in cases of mild degradations, severe in-the-wild degradations could be exaggerated through propagation, impairing output quality. To balance the tradeoff between detail synthesis and artifact suppression, we found an image pre-cleaning stage indispensable to reduce noises and artifacts prior to propagation. Equipped with a carefully designed cleaning module, our RealBasicVSR outperforms existing methods in both quality and efficiency. Second, real-world VSR models are often trained with diverse degradations to improve generalizability, requiring increased batch size to produce a stable gradient. Inevitably, the increased computational burden results in various problems, including 1) speed-performance tradeoff and 2) batch-length tradeoff. To alleviate the first tradeoff, we propose a stochastic degradation scheme that reduces up to 40\% of training time without sacrificing performance. We then analyze different training settings and suggest that employing longer sequences rather than larger batches during training allows more effective uses of temporal information, leading to more stable performance during inference. To facilitate fair comparisons, we propose the new VideoLQ dataset, which contains a large variety of real-world low-quality video sequences containing rich textures and patterns. Our dataset can serve as a common ground for benchmarking. Code, models, and the dataset will be made publicly available.
Abstract（参考訳）: 実世界のビデオ超解像(VSR)における劣化の多様性と複雑さは、推論とトレーニングにおいて非自明な課題をもたらす。第一に, 長期伝搬は軽度劣化の場合には性能が向上するが, 重度劣化は伝播によって誇張され, 出力品質を損なう可能性がある。ディテール合成とアーティファクト抑制のトレードオフのバランスをとるために,伝搬前にノイズやアーティファクトを減らすために,クリーニング前の画像が不可欠であることを見出した。私たちのRealBasicVSRは、慎重に設計されたクリーニングモジュールを備えており、品質と効率の両方で既存の手法より優れています。第二に、現実のVSRモデルは一般化性を改善するために様々な劣化で訓練され、安定した勾配を生み出すためにバッチサイズを増やす必要がある。必然的に計算負荷の増加は、様々な問題を引き起こす。 1)スピードパフォーマンストレードオフと 2) バッチ長トレードオフ。最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる確率分解方式を提案する。次に,異なるトレーニング設定を分析し,トレーニング中により大きなバッチではなく長いシーケンスを使用することで,時間的情報のより効果的な利用が可能となり,推論時のパフォーマンスが向上することを示す。そこで本研究では,多様なテクスチャやパターンを含む多種多様な低品質映像系列を含むビデオLQデータセットを提案する。私たちのデータセットは、ベンチマークの共通基盤として機能します。コード、モデル、データセットは公開される予定だ。

関連論文リスト

QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文参考訳（メタデータ） (2025-06-24T17:57:26Z)
Implicit Neural Representation for Video Restoration [4.960738913876514]
Inlicit Neural Representations (INR)に基づく新しいビデオ復元手法であるVR-INRを紹介する。 VR-INRは、テスト時に任意の、目に見えない超解像スケールに効果的に一般化する。トレーニング中、目に見えないスケールで高品質な再構築とノイズを継続的に維持する。
論文参考訳（メタデータ） (2025-06-05T18:09:59Z)
Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文参考訳（メタデータ） (2025-06-03T17:55:04Z)
Training-free Diffusion Acceleration with Bottleneck Sampling [37.9135035506567]
Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文参考訳（メタデータ） (2025-03-24T17:59:02Z)
Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T03:41:56Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。提案手法は,様々な設定において従来手法よりも常に優れていた。
論文参考訳（メタデータ） (2025-03-06T09:09:18Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。大規模な環境下では、復元の質が悪くなる場合が少なくない。本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文参考訳（メタデータ） (2024-11-19T07:51:44Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文参考訳（メタデータ） (2024-09-29T03:33:35Z)
Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution [38.79439380482431]
実世界の超解像(RWSR)は低分解能入力における未知の劣化に直面している。既存の手法では、学習インプットの複雑な合成拡張を通じて視覚一般モデルを学習することでこの問題にアプローチする。実世界の劣化に対する教師なしRWSRに対処するための,新しい相互距離蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-10T01:46:40Z)
Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文参考訳（メタデータ） (2023-12-01T14:40:07Z)
Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。 SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文参考訳（メタデータ） (2023-10-29T13:58:57Z)
Expanding Synthetic Real-World Degradations for Blind Video Super Resolution [3.474523163017713]
ビデオ超解像(VSR)技術はここ数年で大幅に改善され、合成データに顕著な性能を示した。しかし、実世界のビデオデータにおけるそれらのパフォーマンスは、実世界の劣化と不整合のビデオフレームの複雑さに悩まされている。本稿では,合成学習データセットにおける実世界の劣化について述べる。
論文参考訳（メタデータ） (2023-05-04T08:58:31Z)
DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文参考訳（メタデータ） (2023-03-13T06:05:18Z)
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data [17.529045507657944]
我々は、強力なESRGANを実用的修復アプリケーション(Real-ESRGAN)に拡張する。複雑な実世界の劣化をシミュレートするために、高次劣化モデリングプロセスを導入する。また、合成プロセスにおける共通リングやオーバーシュートアーティファクトについても検討する。
論文参考訳（メタデータ） (2021-07-22T17:43:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。