論文の概要: Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.00458v1
- Date: Sat, 28 Feb 2026 04:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.202198
- Title: Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution
- Title(参考訳): リアルタイムビデオ超解像における逆拡散圧縮の改善
- Authors: Bin Chen, Weiqi Li, Shijie Zhao, Xuanyu Zhang, Junlin Li, Li Zhang, Jian Zhang,
- Abstract要約: SeedVR2、DOVE、DLoRALのようなワンステップネットワークは、数十億のパラメータとマルチ秒のレイテンシで重くなります。
最近の逆拡散圧縮(ADC)は、これらのモデルをコンパクトなAdcSRネットワークに切断・蒸留することで、有望な経路を提供する。
本稿では,空間的詳細と時間的整合性のバランスを保った実VSRのための改良されたADC手法を提案する。
- 参考スコア(独自算出の注目度): 36.32266529540775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While many diffusion models have achieved impressive results in real-world video super-resolution (Real-VSR) by generating rich and realistic details, their reliance on multi-step sampling leads to slow inference. One-step networks like SeedVR2, DOVE, and DLoRAL alleviate this through condensing generation into one single step, yet they remain heavy, with billions of parameters and multi-second latency. Recent adversarial diffusion compression (ADC) offers a promising path via pruning and distilling these models into a compact AdcSR network, but directly applying it to Real-VSR fails to balance spatial details and temporal consistency due to its lack of temporal awareness and the limitations of standard adversarial learning. To address these challenges, we propose an improved ADC method for Real-VSR. Our approach distills a large diffusion Transformer (DiT) teacher DOVE equipped with 3D spatio-temporal attentions, into a pruned 2D Stable Diffusion (SD)-based AdcSR backbone, augmented with lightweight 1D temporal convolutions, achieving significantly higher efficiency. In addition, we introduce a dual-head adversarial distillation scheme, in which discriminators in both pixel and feature domains explicitly disentangle the discrimination of details and consistency into two heads, enabling both objectives to be effectively optimized without sacrificing one for the other. Experiments demonstrate that the resulting compressed AdcVSR model reduces complexity by 95% in parameters and achieves an 8$\times$ acceleration over its DiT teacher DOVE, while maintaining competitive video quality and efficiency.
- Abstract(参考訳): 多くの拡散モデルは、リッチでリアルな詳細を生成することで、実世界のビデオ超解像(Real-VSR)において印象的な結果を得たが、マルチステップサンプリングへの依存は、推論を遅くする。
SeedVR2、DOVE、DLoRALのようなワンステップネットワークは、生成を1ステップにまとめることでこれを緩和するが、数十億のパラメータとマルチ秒のレイテンシを持つ重いネットワークである。
近年の対数拡散圧縮(ADC)は,これらのモデルをコンパクトなAdcSRネットワークに切断・蒸留する上で有望な経路を提供するが,時間的認識の欠如と標準対数学習の限界により空間的詳細と時間的一貫性のバランスが取れない。
これらの課題に対処するため、我々はReal-VSRのための改良されたADC手法を提案する。
提案手法では,3次元時空間アテンションを備えた大拡散トランスフォーマ(DiT)教師DOVEを,軽量な1次元時空間畳み込みで強化した2次元安定拡散(SD)ベースのAdcSRバックボーンに蒸留し,高い効率を実現する。
さらに,両頭部対向蒸留方式を導入し,画素・特徴領域の識別器が2つの頭部に詳細・一貫性の識別を明示的に切り離し,一方を犠牲にすることなく両目的を効果的に最適化できるようにする。
実験により、圧縮されたAdcVSRモデルは、パラメータの95%の複雑さを減らし、競争力のあるビデオ品質と効率を維持しながら、DiTの教師DOVEに対して8$\times$Accelerationを達成することが示された。
関連論文リスト
- OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion [64.10689934231165]
ビデオスーパーレゾリューションモデル(DM)は、ビデオスーパーレゾリューション(VSR)において極めて成功している。
時空ビデオスーパーレゾリューション(STVSR)の可能性は、低解像度から高解像度までのリアルな視覚コンテンツを回復する必要があるが、コヒーレントなダイナミックスでフレームレートを改善する必要がある。
提案するOSDEnhancerは,効率的なワンステップ拡散プロセスにより,実世界のSTVSRを初期化するための最初の手法である。
実験により,提案手法は実世界のシナリオにおいて優れた性能を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T06:59:55Z) - USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [61.284842030283464]
FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。
A100 GPUで768x1408ビデオの約17FPSで動作する。
超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-10-14T17:25:54Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示している。
これらのモデルをビデオ超解像(VSR)に適応させることは、その性質と時間的モデリングの欠如により、依然として困難である。
我々は,超現実的で時間的に整合したVSRを,効率的なワンステップ拡散空間で実現するための新しいフレームワークであるUltraVSRを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [37.788426685862056]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(すなわち、CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。
提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。
実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文 参考訳(メタデータ) (2025-03-25T09:56:21Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - GenDR: Lightning Generative Detail Restorator [18.465568249533966]
我々は,より大きい潜伏空間を持つテーラー拡散モデルから抽出した生成詳細復元のための1段階拡散モデルGenDRを提案する。
実験の結果,GenDRは定量的な測定値と視覚的忠実度の両方で最先端の性能を達成できた。
論文 参考訳(メタデータ) (2025-03-09T22:02:18Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Adversarial Diffusion Compression for Real-World Image Super-Resolution [16.496532580598007]
現実世界の超解像は、劣化した低分解能入力から高分解能画像を再構成することを目的としている。
OSEDiffやS3Diffのような一段階拡散ネットワークはこの問題を緩和するが、それでも高い計算コストがかかる。
本稿では,一段階拡散ネットワークOSEDiffを流線形拡散GANモデルに蒸留することにより,新しいリアルISR法AdcSRを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。