論文の概要: Cascaded Temporal Updating Network for Efficient Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.14244v1
- Date: Mon, 26 Aug 2024 12:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:01:29.210616
- Title: Cascaded Temporal Updating Network for Efficient Video Super-Resolution
- Title(参考訳): 効率的なビデオ超解像のためのカスケード時間更新ネットワーク
- Authors: Hao Li, Jiangxin Dong, Jinshan Pan,
- Abstract要約: リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
- 参考スコア(独自算出の注目度): 47.63267159007611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video super-resolution (VSR) methods generally adopt a recurrent propagation network to extract spatio-temporal information from the entire video sequences, exhibiting impressive performance. However, the key components in recurrent-based VSR networks significantly impact model efficiency, e.g., the alignment module occupies a substantial portion of model parameters, while the bidirectional propagation mechanism significantly amplifies the inference time. Consequently, developing a compact and efficient VSR method that can be deployed on resource-constrained devices, e.g., smartphones, remains challenging. To this end, we propose a cascaded temporal updating network (CTUN) for efficient VSR. We first develop an implicit cascaded alignment module to explore spatio-temporal correspondences from adjacent frames. Moreover, we propose a unidirectional propagation updating network to efficiently explore long-range temporal information, which is crucial for high-quality video reconstruction. Specifically, we develop a simple yet effective hidden updater that can leverage future information to update hidden features during forward propagation, significantly reducing inference time while maintaining performance. Finally, we formulate all of these components into an end-to-end trainable VSR network. Extensive experimental results show that our CTUN achieves a favorable trade-off between efficiency and performance compared to existing methods. Notably, compared with BasicVSR, our method obtains better results while employing only about 30% of the parameters and running time. The source code and pre-trained models will be available at https://github.com/House-Leo/CTUN.
- Abstract(参考訳): 既存のビデオ超解像法(VSR)では、通常、ビデオシーケンス全体から時空間情報を抽出するために、繰り返し伝搬ネットワークを採用している。
しかし、リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を与え、例えばアライメントモジュールはモデルパラメータの大部分を占め、双方向の伝搬機構は推論時間を著しく増幅する。
その結果,資源制約のあるデバイス,例えばスマートフォンに展開可能な,コンパクトで効率的なVSR手法の開発は依然として困難である。
そこで本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
まず、隣接フレームからの時空間対応を探索する暗黙のカスケードアライメントモジュールを開発する。
また,高品質な映像再構成に欠かせない長距離時間情報を効率的に探索する一方向伝搬更新ネットワークを提案する。
具体的には、将来の情報を利用して前方伝搬中に隠れた特徴を更新し、性能を維持しながら推論時間を著しく短縮できる、シンプルで効果的な隠れ更新器を開発する。
最後に、これらすべてのコンポーネントをエンドツーエンドのトレーニング可能なVSRネットワークに定式化する。
以上の結果から,CTUNは従来の方法に比べて効率と性能のトレードオフが良好であることが示唆された。
特に,本手法は,BasicVSRと比較して,約30%のパラメータとランニング時間しか使用せず,より優れた結果が得られる。
ソースコードと事前トレーニングされたモデルはhttps://github.com/House-Leo/CTUN.comで入手できる。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Boosting Video Super Resolution with Patch-Based Temporal Redundancy
Optimization [46.833568886576074]
静止物体と背景を持つパッチにおける時間的冗長性の影響について論じる。
我々は,既存の局所的および非局所的伝搬型VSRアルゴリズムの性能向上のための,シンプルで効果的な2つのプラグアンドプレイ法を開発した。
論文 参考訳(メタデータ) (2022-07-18T15:11:18Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - Self-Supervised Adaptation for Video Super-Resolution [7.26562478548988]
シングルイメージスーパーリゾリューション(SISR)ネットワークは、特定の入力画像にネットワークパラメータを適応させることができます。
従来のビデオスーパーレゾリューション(VSR)ネットワークがビデオフレームをテストするためにパラメータを適応できるようにする新しい学習アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-18T08:30:24Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。