論文の概要: LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s
- arxiv url: http://arxiv.org/abs/2506.08529v1
- Date: Tue, 10 Jun 2025 07:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.853661
- Title: LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s
- Title(参考訳): LiftVSR: 4$\times$RTX 4090のハイブリッド時間モデリングによるビデオ超解像への画像拡散
- Authors: Xijun Wang, Xin Li, Bingchen Li, Zhibo Chen,
- Abstract要約: 拡散モデルは、知覚品質を向上させることによって高度なビデオ超解像(VSR)を持つ。
本稿では、PixArt-$alpha$に先立って画像の拡散を緩和し、最先端の結果を得るための効率的なVSRフレームワークLiftVSRを提案する。
いくつかの典型的なVSRベンチマークの実験では、LiftVSRは計算コストを大幅に削減して優れた性能を発揮することが示されている。
- 参考スコア(独自算出の注目度): 16.456543112614586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly advanced video super-resolution (VSR) by enhancing perceptual quality, largely through elaborately designed temporal modeling to ensure inter-frame consistency. However, existing methods usually suffer from limited temporal coherence and prohibitively high computational costs (e.g., typically requiring over 8 NVIDIA A100-80G GPUs), especially for long videos. In this work, we propose LiftVSR, an efficient VSR framework that leverages and elevates the image-wise diffusion prior from PixArt-$\alpha$, achieving state-of-the-art results using only 4$\times$RTX 4090 GPUs. To balance long-term consistency and efficiency, we introduce a hybrid temporal modeling mechanism that decomposes temporal learning into two complementary components: (i) Dynamic Temporal Attention (DTA) for fine-grained temporal modeling within short frame segment ($\textit{i.e.}$, low complexity), and (ii) Attention Memory Cache (AMC) for long-term temporal modeling across segments ($\textit{i.e.}$, consistency). Specifically, DTA identifies multiple token flows across frames within multi-head query and key tokens to warp inter-frame contexts in the value tokens. AMC adaptively aggregates historical segment information via a cache unit, ensuring long-term coherence with minimal overhead. To further stabilize the cache interaction during inference, we introduce an asymmetric sampling strategy that mitigates feature mismatches arising from different diffusion sampling steps. Extensive experiments on several typical VSR benchmarks have demonstrated that LiftVSR achieves impressive performance with significantly lower computational costs.
- Abstract(参考訳): 拡散モデルは、フレーム間の一貫性を確保するために精巧に設計された時間的モデリングを通じて、知覚的品質を向上させることにより、かなり高度なビデオ超解像(VSR)を持つ。
しかし、既存の手法では、特に長いビデオの場合、時間的コヒーレンスや計算コストが極端に高い(例:NVIDIA A100-80G GPUを8つ以上必要)。
本研究では、4$\times$RTX 4090 GPUのみを用いて、PixArt-$\alpha$より前の画像拡散を活用・向上する効率的なVSRフレームワークであるLiftVSRを提案する。
長期的一貫性と効率のバランスをとるために、時間学習を2つの相補的な構成要素に分解するハイブリッド時間モデリング機構を導入する。
一 短いフレームセグメント内におけるきめ細かい時間的モデリングのための動的時間的注意(DTA)及び低複雑性
(ii)セグメント間の長期時間モデリングのための注意メモリキャッシュ(AMC)(\textit{i.e.}$, consistency)。
具体的には、DTAは、マルチヘッドクエリ内のフレーム間の複数のトークンフローと、バリュートークン内のフレーム間のコンテキストをワープするキートークンを識別する。
AMCはキャッシュユニットを介して履歴セグメント情報を適応的に集約し、最小限のオーバーヘッドで長期的な一貫性を確保する。
推論中のキャッシュの相互作用をさらに安定化させるために,異なる拡散サンプリングステップから生じる特徴ミスマッチを緩和する非対称サンプリング戦略を導入する。
いくつかの典型的なVSRベンチマークでの大規模な実験により、LiftVSRは計算コストを大幅に削減して優れた性能を発揮することが示された。
関連論文リスト
- Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
UltraVSRは、超現実的で時間的コヒーレントなVSRを可能にするフレームワークである。
DRSは、分解過程を低解像度から高解像度のビデオから一段階の再構成に変換する。
RTSモジュールは、事前訓練されたテキスト-画像拡散モデルに統合される。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。