論文の概要: Low Resource Video Super-resolution using Memory and Residual Deformable Convolutions
- arxiv url: http://arxiv.org/abs/2502.01816v1
- Date: Mon, 03 Feb 2025 20:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:16.844293
- Title: Low Resource Video Super-resolution using Memory and Residual Deformable Convolutions
- Title(参考訳): メモリと残留変形可能な畳み込みを用いた低リソースビデオ超解像
- Authors: Kavitha Viswanathan, Shashwat Pathak, Piyush Bharambe, Harsh Choudhary, Amit Sethi,
- Abstract要約: トランスフォーマーベースのビデオスーパーレゾリューション(VSR)モデルは近年、新しいベンチマークを設定しているが、その相当な計算要求により、リソースに制約のあるデバイスへの展開には適さないものが多い。
本稿では,VSRのための軽量・パラメータ効率の深い残留変形可能な畳み込みネットワークを提案する。
パラメータはわずか230万であり、REDS4データセット上での最先端のSSIMは0.9175である。
- 参考スコア(独自算出の注目度): 3.018928786249079
- License:
- Abstract: Transformer-based video super-resolution (VSR) models have set new benchmarks in recent years, but their substantial computational demands make most of them unsuitable for deployment on resource-constrained devices. Achieving a balance between model complexity and output quality remains a formidable challenge in VSR. Although lightweight models have been introduced to address this issue, they often struggle to deliver state-of-the-art performance. We propose a novel lightweight, parameter-efficient deep residual deformable convolution network for VSR. Unlike prior methods, our model enhances feature utilization through residual connections and employs deformable convolution for precise frame alignment, addressing motion dynamics effectively. Furthermore, we introduce a single memory tensor to capture information accrued from the past frames and improve motion estimation across frames. This design enables an efficient balance between computational cost and reconstruction quality. With just 2.3 million parameters, our model achieves state-of-the-art SSIM of 0.9175 on the REDS4 dataset, surpassing existing lightweight and many heavy models in both accuracy and resource efficiency. Architectural insights from our model pave the way for real-time VSR on streaming data.
- Abstract(参考訳): トランスフォーマーベースのビデオスーパーレゾリューション(VSR)モデルは近年、新しいベンチマークを設定しているが、その相当な計算要求により、リソースに制約のあるデバイスへの展開には適さないものが多い。
モデル複雑性と出力品質のバランスを取ることは、VSRでは依然として非常に難しい課題です。
この問題に対処するために軽量モデルが導入されたが、最先端のパフォーマンスを実現するのに苦労することが多い。
本稿では,VSRのための軽量・パラメータ効率の深い残留変形可能な畳み込みネットワークを提案する。
従来の手法とは異なり、我々のモデルは残差接続による特徴利用を強化し、正確なフレームアライメントのために変形可能な畳み込みを用い、動きのダイナミクスに効果的に対処する。
さらに、過去のフレームから得られた情報を捕捉し、フレーム間の動き推定を改善するための単一のメモリテンソルを導入する。
この設計は、計算コストと再構成品質の効率的なバランスを可能にする。
たった230万のパラメータで、我々のモデルはREDS4データセット上で0.9175の最先端のSSIMを達成し、精度とリソース効率の両面で既存の軽量で多くの重モデルを上回っます。
当社のモデルによるアーキテクチャ上の洞察は,ストリーミングデータに対するリアルタイムVSRの道を開いたものです。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。