論文の概要: No Attention is Needed: Grouped Spatial-temporal Shift for Simple and
Efficient Video Restorers
- arxiv url: http://arxiv.org/abs/2206.10810v1
- Date: Wed, 22 Jun 2022 02:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:20:54.926229
- Title: No Attention is Needed: Grouped Spatial-temporal Shift for Simple and
Efficient Video Restorers
- Title(参考訳): 要注意:単純かつ効率的なビデオレコーダのためのグループ時間シフト
- Authors: Dasong Li, Xiaoyu Shi, Yi Zhang, Xiaogang Wang, Hongwei Qin, Hongsheng
Li
- Abstract要約: ビデオ復元は、複数の不整合フレームから時間的対応を確立するために必要である。
既存のディープメソッドは一般的に複雑なネットワークアーキテクチャを採用する。
本稿では,ビデオ復元のための簡易かつ高速かつ効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.94887477375227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video restoration, aiming at restoring clear frames from degraded videos, has
been attracting increasing attention. Video restoration is required to
establish the temporal correspondences from multiple misaligned frames. To
achieve that end, existing deep methods generally adopt complicated network
architectures, such as integrating optical flow, deformable convolution,
cross-frame or cross-pixel self-attention layers, resulting in expensive
computational cost. We argue that with proper design, temporal information
utilization in video restoration can be much more efficient and effective. In
this study, we propose a simple, fast yet effective framework for video
restoration. The key of our framework is the grouped spatial-temporal shift,
which is simple and lightweight, but can implicitly establish inter-frame
correspondences and achieve multi-frame aggregation. Coupled with basic 2D
U-Nets for frame-wise encoding and decoding, such an efficient spatial-temporal
shift module can effectively tackle the challenges in video restoration.
Extensive experiments show that our framework surpasses previous
state-of-the-art method with 43% of its computational cost on both video
deblurring and video denoising.
- Abstract(参考訳): 劣化したビデオからクリアフレームを復元するビデオ修復が注目を集めている。
ビデオ復元は、複数の不整合フレームから時間的対応を確立するために必要である。
この目的を達成するために、既存のディープメソッドは一般的に、光学フロー、変形可能な畳み込み、クロスフレームまたはクロスピクセルの自己アテンション層を統合するなどの複雑なネットワークアーキテクチャを採用する。
適切な設計により,映像復元における時間的情報の利用は,はるかに効率的かつ効果的であると考えられる。
本研究では,ビデオ復元のための簡易かつ高速かつ効果的なフレームワークを提案する。
フレームワークの鍵となるのは、単純で軽量なグループ化された時空間シフトであるが、暗黙的にフレーム間対応を確立し、多フレームアグリゲーションを実現することができる。
フレーム単位の符号化と復号のための基本2次元U-Netと組み合わせることで、このような効率的な時空間シフトモジュールは、ビデオ復元の課題に効果的に取り組むことができる。
大規模な実験により,我々のフレームワークは従来の最先端手法を43%のコストで超越していることがわかった。
関連論文リスト
- DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring [39.63844562890704]
リアルタイムの劣化は、空間的および時間的に変化するぼやけ自体の複雑さのため、依然として困難な課題である。
我々はRNN細胞に残留密度ブロックを適用して、現在のフレームの空間的特徴を効率的に抽出する。
我々は、コ軸ビームスプリッタ取得システムを用いて、ペア/シャープのビデオクリップを収集し、新しいデータセット(BSD)をコミュニティにコントリビュートする。
論文 参考訳(メタデータ) (2021-06-30T12:53:02Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。