論文の概要: Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring
- arxiv url: http://arxiv.org/abs/2106.16028v1
- Date: Wed, 30 Jun 2021 12:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:31:11.823141
- Title: Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring
- Title(参考訳): ビデオデブロアリングのための高効率時空間リカレントニューラルネットワーク
- Authors: Zhihang Zhong, Ye Gao, Yinqiang Zheng, Bo Zheng, and Imari Sato
- Abstract要約: リアルタイムの劣化は、空間的および時間的に変化するぼやけ自体の複雑さのため、依然として困難な課題である。
我々はRNN細胞に残留密度ブロックを適用して、現在のフレームの空間的特徴を効率的に抽出する。
我々は、コ軸ビームスプリッタ取得システムを用いて、ペア/シャープのビデオクリップを収集し、新しいデータセット(BSD)をコミュニティにコントリビュートする。
- 参考スコア(独自算出の注目度): 39.63844562890704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time video deblurring still remains a challenging task due to the
complexity of spatially and temporally varying blur itself and the requirement
of low computational cost. To improve the network efficiency, we adopt residual
dense blocks into RNN cells, so as to efficiently extract the spatial features
of the current frame. Furthermore, a global spatio-temporal attention module is
proposed to fuse the effective hierarchical features from past and future
frames to help better deblur the current frame. Another issue needs to be
addressed urgently is the lack of a real-world benchmark dataset. Thus, we
contribute a novel dataset (BSD) to the community, by collecting paired
blurry/sharp video clips using a co-axis beam splitter acquisition system.
Experimental results show that the proposed method (ESTRNN) can achieve better
deblurring performance both quantitatively and qualitatively with less
computational cost against state-of-the-art video deblurring methods. In
addition, cross-validation experiments between datasets illustrate the high
generality of BSD over the synthetic datasets. The code and dataset are
released at https://github.com/zzh-tech/ESTRNN.
- Abstract(参考訳): リアルタイムビデオの劣化は、空間的および時間的に異なるぼかし自体の複雑さと計算コストの低い要求のため、依然として困難な課題である。
ネットワーク効率を向上させるため,RNNセルに高密度ブロックを適用し,現在のフレームの空間的特徴を効率的に抽出する。
さらに,過去のフレームと将来のフレームから効果的な階層的特徴を融合させて,現在のフレームを損なうのに役立つグローバル時空間アテンションモジュールを提案する。
もう1つの緊急に対処する必要がある問題は、実世界のベンチマークデータセットの欠如である。
そこで我々は,コ軸ビームスプリッタ取得システムを用いて,一対のぼやけたビデオクリップを収集し,新しいデータセット(BSD)をコミュニティに提供する。
実験の結果, 提案手法(estrnn)は, 計算コストが低く, 定量的, 質的にも良好な脱毛性能が得られることがわかった。
さらに、データセット間のクロスバリデーション実験は、合成データセットに対するBSDの高一般性を示している。
コードとデータセットはhttps://github.com/zzh-tech/ESTRNNで公開されている。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Deep Recurrent Neural Network with Multi-scale Bi-directional
Propagation for Video Deblurring [36.94523101375519]
本稿では,RNN-MBP(Multiscale Bi-directional Propagation)を用いたディープリカレントニューラルネットワークを提案する。
提案したアルゴリズムと既存の最先端の手法を現実世界のぼやけたシーンでよりよく評価するために、リアルワールドのぼやけたビデオデータセットも作成する。
提案アルゴリズムは3つの典型的なベンチマークにおける最先端の手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-09T11:02:56Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。