論文の概要: Towards Redundancy Reduction in Diffusion Models for Efficient Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2509.23980v1
- Date: Sun, 28 Sep 2025 17:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.568082
- Title: Towards Redundancy Reduction in Diffusion Models for Efficient Video Super-Resolution
- Title(参考訳): 効率的なビデオ超解法のための拡散モデルの冗長性低減に向けて
- Authors: Jinpei Guo, Yifei Ji, Zheng Chen, Yufei Wang, Sizhuo Ma, Yong Guo, Yulun Zhang, Jian Wang,
- Abstract要約: ビデオ超解像(VSR)への生成拡散モデルへの直接適応は冗長性をもたらす。
OASISは、$textbfa$ttention $textbfs$pecialization for real-world v$textbfi$deo $textbfs$uper- resolutionを備えた効率的な$textbfo$ne-step拡散モデルである。
OASISは、合成データセットと実世界のデータセットの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 41.19210731686364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently shown promising results for video super-resolution (VSR). However, directly adapting generative diffusion models to VSR can result in redundancy, since low-quality videos already preserve substantial content information. Such redundancy leads to increased computational overhead and learning burden, as the model performs superfluous operations and must learn to filter out irrelevant information. To address this problem, we propose OASIS, an efficient $\textbf{o}$ne-step diffusion model with $\textbf{a}$ttention $\textbf{s}$pecialization for real-world v$\textbf{i}$deo $\textbf{s}$uper-resolution. OASIS incorporates an attention specialization routing that assigns attention heads to different patterns according to their intrinsic behaviors. This routing mitigates redundancy while effectively preserving pretrained knowledge, allowing diffusion models to better adapt to VSR and achieve stronger performance. Moreover, we propose a simple yet effective progressive training strategy, which starts with temporally consistent degradations and then shifts to inconsistent settings. This strategy facilitates learning under complex degradations. Extensive experiments demonstrate that OASIS achieves state-of-the-art performance on both synthetic and real-world datasets. OASIS also provides superior inference speed, offering a $\textbf{6.2$\times$}$ speedup over one-step diffusion baselines such as SeedVR2. The code will be available at \href{https://github.com/jp-guo/OASIS}{https://github.com/jp-guo/OASIS}.
- Abstract(参考訳): 拡散モデルは近年,ビデオ超解像(VSR)の有望な結果を示している。
しかしながら、VSRに生成拡散モデルを直接適用すると、低品質のビデオがコンテンツ情報を保存しているため、冗長性が生じる可能性がある。
このような冗長性は、モデルが過剰な操作を行うため、計算オーバーヘッドと学習負荷を増大させ、無関係な情報をフィルタリングすることを学ぶ必要がある。
この問題に対処するため、OASIS, a efficient $\textbf{o}$ne-stepfusion model with $\textbf{a}$ttention $\textbf{s}$pecialization for real-world v$\textbf{i}$deo $\textbf{s}$uper- resolutionを提案する。
OASISは、その本質的な行動に応じて異なるパターンに注意を割り当てるアテンション特殊化ルーティングを組み込んでいる。
このルーティングは、訓練済みの知識を効果的に保ちながら冗長性を軽減し、拡散モデルがVSRに適応し、より強力な性能を実現する。
さらに、時間的に一貫した劣化から始まり、不整合な設定に移行する、単純で効果的な進行訓練戦略を提案する。
この戦略は複雑な劣化下での学習を容易にする。
大規模な実験は、OASISが合成データセットと実世界のデータセットの両方で最先端のパフォーマンスを達成することを示した。
OASISはより優れた推論速度を提供し、SeedVR2のようなワンステップ拡散ベースラインよりも$\textbf{6.2$\times$}$スピードアップを提供する。
コードは \href{https://github.com/jp-guo/OASIS}{https://github.com/jp-guo/OASIS} で入手できる。
関連論文リスト
- LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s [16.456543112614586]
拡散モデルは、知覚品質を向上させることによって高度なビデオ超解像(VSR)を持つ。
本稿では、PixArt-$alpha$に先立って画像の拡散を緩和し、最先端の結果を得るための効率的なVSRフレームワークLiftVSRを提案する。
いくつかの典型的なVSRベンチマークの実験では、LiftVSRは計算コストを大幅に削減して優れた性能を発揮することが示されている。
論文 参考訳(メタデータ) (2025-06-10T07:49:33Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。