論文の概要: Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution
- arxiv url: http://arxiv.org/abs/2106.07190v1
- Date: Mon, 14 Jun 2021 06:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:32:22.679143
- Title: Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution
- Title(参考訳): ビデオ超解像のためのグループベース双方向リカレントウェーブレットニューラルネットワーク
- Authors: Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim
- Abstract要約: ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
- 参考スコア(独自算出の注目度): 4.9136996406481135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video super-resolution (VSR) aims to estimate a high-resolution (HR) frame
from a low-resolution (LR) frames. The key challenge for VSR lies in the
effective exploitation of spatial correlation in an intra-frame and temporal
dependency between consecutive frames. However, most of the previous methods
treat different types of the spatial features identically and extract spatial
and temporal features from the separated modules. It leads to lack of obtaining
meaningful information and enhancing the fine details. In VSR, there are three
types of temporal modeling frameworks: 2D convolutional neural networks (CNN),
3D CNN, and recurrent neural networks (RNN). Among them, the RNN-based approach
is suitable for sequential data. Thus the SR performance can be greatly
improved by using the hidden states of adjacent frames. However, at each of
time step in a recurrent structure, the RNN-based previous works utilize the
neighboring features restrictively. Since the range of accessible motion per
time step is narrow, there are still limitations to restore the missing details
for dynamic or large motion. In this paper, we propose a group-based
bi-directional recurrent wavelet neural networks (GBR-WNN) to exploit the
sequential data and spatio-temporal information effectively for VSR. The
proposed group-based bi-directional RNN (GBR) temporal modeling framework is
built on the well-structured process with the group of pictures (GOP). We
propose a temporal wavelet attention (TWA) module, in which attention is
adopted for both spatial and temporal features. Experimental results
demonstrate that the proposed method achieves superior performance compared
with state-of-the-art methods in both of quantitative and qualitative
evaluations.
- Abstract(参考訳): ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの重要な課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
しかし,従来の手法のほとんどは異なる空間的特徴を同一に扱い,分離したモジュールから空間的特徴と時間的特徴を抽出する。
意味のある情報を得ることができず、細部が強化される。
vsrには、2d convolutional neural networks (cnn)、3d cnn、recurrent neural networks (rnn)の3種類の時間モデリングフレームワークがある。
その中でも、RNNベースのアプローチはシーケンシャルデータに適している。
これにより、隣接フレームの隠れ状態を用いることでsr性能を大幅に向上させることができる。
しかしながら、リカレント構造の各時間ステップにおいて、rnnベースの以前の作品は、隣り合う特徴を制限的に利用する。
タイムステップあたりのアクセシビリティな動きの範囲は狭いため、ダイナミックな動きや大きな動きの欠如した詳細を復元する制限がある。
本稿では,グループベース双方向リカレントウェーブレットニューラルネットワーク(GBR-WNN)を提案する。
グループベース双方向RNN (GBR) 時間モデリングフレームワークは,画像群 (GOP) を用いた構造化プロセス上に構築されている。
本稿では,空間的特徴と時間的特徴の両方に注意をあてる時間的ウェーブレットアテンション(TWA)モジュールを提案する。
実験結果から,提案手法は定量評価と定性評価の両方において,最先端の手法と比較して優れた性能を示すことが示された。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Enhancing Adaptive History Reserving by Spiking Convolutional Block
Attention Module in Recurrent Neural Networks [21.509659756334802]
スパイキングニューラルネットワーク(SNN)は、時系列における時間的パターンを処理するための1種類の効率的なモデルである。
本稿では、先進的なスパイキング・コンボリューション・アテンション・モジュール(SCBAM)コンポーネントを組み込んだ繰り返しスパイキング・ニューラルネットワーク(RSNN)モデルを開発する。
SCBAMを通して空間的・時間的チャネルの履歴情報を適応的に呼び出すことで、効率的なメモリ呼び出し履歴と冗長性排除の利点をもたらす。
論文 参考訳(メタデータ) (2024-01-08T08:05:34Z) - Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [17.611912733951662]
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、時間的依存をモデル化する能力で有名である。
本稿では,バニラRNNの時間的モデリング能力を高めるために,DMU(Delayed Memory Unit)を提案する。
提案したDMUは、広範囲の逐次モデリングタスクにおいて優れた時間的モデリング能力を示す。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。