論文の概要: A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift
- arxiv url: http://arxiv.org/abs/2206.10810v2
- Date: Mon, 22 May 2023 09:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:04:33.849313
- Title: A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift
- Title(参考訳): グループ化時空間シフトによるビデオ再生のための簡易ベースライン
- Authors: Dasong Li, Xiaoyu Shi, Yi Zhang, Ka Chun Cheung, Simon See, Xiaogang
Wang, Hongwei Qin, Hongsheng Li
- Abstract要約: 本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
- 参考スコア(独自算出の注目度): 36.71578909392314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video restoration, which aims to restore clear frames from degraded videos,
has numerous important applications. The key to video restoration depends on
utilizing inter-frame information. However, existing deep learning methods
often rely on complicated network architectures, such as optical flow
estimation, deformable convolution, and cross-frame self-attention layers,
resulting in high computational costs. In this study, we propose a simple yet
effective framework for video restoration. Our approach is based on grouped
spatial-temporal shift, which is a lightweight and straightforward technique
that can implicitly capture inter-frame correspondences for multi-frame
aggregation. By introducing grouped spatial shift, we attain expansive
effective receptive fields. Combined with basic 2D convolution, this simple
framework can effectively aggregate inter-frame information. Extensive
experiments demonstrate that our framework outperforms the previous
state-of-the-art method, while using less than a quarter of its computational
cost, on both video deblurring and video denoising tasks. These results
indicate the potential for our approach to significantly reduce computational
overhead while maintaining high-quality results. Code is avaliable at
https://github.com/dasongli1/Shift-Net.
- Abstract(参考訳): 劣化したビデオからクリアフレームを復元することを目的としたビデオ復元には、多くの重要な応用がある。
ビデオ復元の鍵は、フレーム間の情報の利用に依存する。
しかし、既存のディープラーニング手法は、光学フロー推定、変形可能な畳み込み、クロスフレーム自己接続層などの複雑なネットワークアーキテクチャに依存しており、計算コストが高くなる。
本研究では,映像復元のための簡易かつ効果的な枠組みを提案する。
このアプローチは,マルチフレームアグリゲーションのためのフレーム間対応を暗黙的に捉えることのできる,軽量で分かりやすい手法であるgrouped spatial-temporal shiftに基づいている。
グループ化された空間シフトを導入することで、広範に効果的な受容場が得られる。
基本的な2次元畳み込みと組み合わせることで、このシンプルなフレームワークはフレーム間情報を効果的に集約することができる。
広範な実験により,提案手法は従来の最先端手法よりも優れており,その計算コストの4分の1以下をビデオデブラリングとビデオデノージングのタスクで使用する。
これらの結果は,高品質な結果を維持しながら計算オーバーヘッドを大幅に削減できる可能性を示している。
コードはhttps://github.com/dasongli1/shift-netで評価できる。
関連論文リスト
- DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring [39.63844562890704]
リアルタイムの劣化は、空間的および時間的に変化するぼやけ自体の複雑さのため、依然として困難な課題である。
我々はRNN細胞に残留密度ブロックを適用して、現在のフレームの空間的特徴を効率的に抽出する。
我々は、コ軸ビームスプリッタ取得システムを用いて、ペア/シャープのビデオクリップを収集し、新しいデータセット(BSD)をコミュニティにコントリビュートする。
論文 参考訳(メタデータ) (2021-06-30T12:53:02Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。