論文の概要: Low-Resource Video Super-Resolution using Memory, Wavelets, and Deformable Convolutions
- arxiv url: http://arxiv.org/abs/2502.01816v2
- Date: Sun, 16 Mar 2025 20:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:54.147763
- Title: Low-Resource Video Super-Resolution using Memory, Wavelets, and Deformable Convolutions
- Title(参考訳): メモリ、ウェーブレット、変形可能な畳み込みを用いた低解像度ビデオ超解像
- Authors: Kavitha Viswanathan, Shashwat Pathak, Piyush Bharambe, Harsh Choudhary, Amit Sethi,
- Abstract要約: ビデオスーパーレゾリューション(VSR)は、リソース制約のあるエッジデバイスへのデプロイにおいて、依然として大きな課題である。
本稿では,230万のパラメータで最先端の再現精度を実現する,VSRのための新しい軽量かつパラメータ効率のニューラルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.018928786249079
- License:
- Abstract: The tradeoff between reconstruction quality and compute required for video super-resolution (VSR) remains a formidable challenge in its adoption for deployment on resource-constrained edge devices. While transformer-based VSR models have set new benchmarks for reconstruction quality in recent years, these require substantial computational resources. On the other hand, lightweight models that have been introduced even recently struggle to deliver state-of-the-art reconstruction. We propose a novel lightweight and parameter-efficient neural architecture for VSR that achieves state-of-the-art reconstruction accuracy with just 2.3 million parameters. Our model enhances information utilization based on several architectural attributes. Firstly, it uses 2D wavelet decompositions strategically interlayered with learnable convolutional layers to utilize the inductive prior of spatial sparsity of edges in visual data. Secondly, it uses a single memory tensor to capture inter-frame temporal information while avoiding the computational cost of previous memory-based schemes. Thirdly, it uses residual deformable convolutions for implicit inter-frame object alignment that improve upon deformable convolutions by enhancing spatial information in inter-frame feature differences. Architectural insights from our model can pave the way for real-time VSR on the edge, such as display devices for streaming data.
- Abstract(参考訳): ビデオスーパーレゾリューション(VSR)に必要なリコンストラクション品質と計算のトレードオフは、リソース制約のあるエッジデバイスへのデプロイにおいて、依然として大きな課題である。
近年、トランスフォーマーベースのVSRモデルは、再構成品質のベンチマークを新たに設定しているが、これらは相当な計算資源を必要とする。
一方、近年導入されている軽量モデルは、最先端の再構築に苦慮している。
本稿では,230万のパラメータで最先端の再現精度を実現する,VSRのための新しい軽量かつパラメータ効率のニューラルアーキテクチャを提案する。
我々のモデルは、いくつかのアーキテクチャ特性に基づいて情報利用を向上させる。
第一に、2Dウェーブレット分解を学習可能な畳み込み層で戦略的に積層し、視覚データにおけるエッジの空間的間隔の誘導的な前処理を利用する。
第二に、単一のメモリテンソルを使用して、以前のメモリベースのスキームの計算コストを回避しながら、フレーム間時間情報をキャプチャする。
第3に、フレーム間特徴差における空間情報を強化することにより、変形可能な畳み込みを改善する暗黙のフレーム間オブジェクトアライメントに残留変形可能な畳み込みを使用する。
私たちのモデルからのアーキテクチャ上の洞察は、ストリーミングデータ用のディスプレイデバイスなど、エッジ上でリアルタイムのVSRを実現するための道を開くことができます。
関連論文リスト
- VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。