論文の概要: Pay Attention to Hidden States for Video Deblurring: Ping-Pong Recurrent
Neural Networks and Selective Non-Local Attention
- arxiv url: http://arxiv.org/abs/2203.16063v1
- Date: Wed, 30 Mar 2022 05:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:05:30.960001
- Title: Pay Attention to Hidden States for Video Deblurring: Ping-Pong Recurrent
Neural Networks and Selective Non-Local Attention
- Title(参考訳): ビデオデブラリングのための隠れた状態に注意を払う:ping-pongリカレントニューラルネットワークと選択的非局所的注意
- Authors: JoonKyu Park, Seungjun Nah, Kyoung Mu Lee
- Abstract要約: ビデオデブロアリングのためのRNNアーキテクチャを補完する2つのモジュールを提案する。
まず,隠蔽状態の更新を行うPing-Pong RNNの設計を行う。
次に、Selective Non-Local Attention(SNLA)モジュールを用いて、入力フレームの特徴からの位置情報と整列することで、隠れた状態をさらに洗練する。
- 参考スコア(独自算出の注目度): 58.49075799159015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video deblurring models exploit information in the neighboring frames to
remove blur caused by the motion of the camera and the objects. Recurrent
Neural Networks~(RNNs) are often adopted to model the temporal dependency
between frames via hidden states. When motion blur is strong, however, hidden
states are hard to deliver proper information due to the displacement between
different frames. While there have been attempts to update the hidden states,
it is difficult to handle misaligned features beyond the receptive field of
simple modules. Thus, we propose 2 modules to supplement the RNN architecture
for video deblurring. First, we design Ping-Pong RNN~(PPRNN) that acts on
updating the hidden states by referring to the features from the current and
the previous time steps alternately. PPRNN gathers relevant information from
the both features in an iterative and balanced manner by utilizing its
recurrent architecture. Second, we use a Selective Non-Local Attention~(SNLA)
module to additionally refine the hidden state by aligning it with the
positional information from the input frame feature. The attention score is
scaled by the relevance to the input feature to focus on the necessary
information. By paying attention to hidden states with both modules, which have
strong synergy, our PAHS framework improves the representation powers of RNN
structures and achieves state-of-the-art deblurring performance on standard
benchmarks and real-world videos.
- Abstract(参考訳): ビデオデブラリングモデルは、隣接するフレーム内の情報を利用して、カメラとオブジェクトの動きによって引き起こされるぼやけを取り除く。
recurrent neural networks~(rnn)は、隠れ状態を介してフレーム間の時間依存性をモデル化するためによく用いられる。
しかし、動きのぼかしが強い場合、異なるフレーム間の変位により隠蔽状態が適切な情報を提供するのは難しい。
隠れた状態を更新する試みはあったが、単純なモジュールの受容的フィールドを超えた不整合な機能を扱うのは難しい。
そこで本研究では,RNNアーキテクチャを補完する2つのモジュールを提案する。
まず,Ping-Pong RNN〜(PPRNN)を設計し,現在時刻と前時刻との特徴を交互に参照することで隠れた状態を更新する。
PPRNNは、繰り返しアーキテクチャを利用して、両方の機能から関連する情報を反復的かつバランスよく収集する。
第2に,選択的非局所的注意~(snla)モジュールを用いて,入力フレーム特徴からの位置情報と整合することにより,隠れ状態をさらに洗練する。
注意スコアは、入力特徴との関係によりスケールされ、必要な情報に集中する。
強力な相乗効果を持つ両モジュールの隠れ状態に注意を払うことで、PAHSフレームワークはRNN構造の表現能力を改善し、標準ベンチマークや実世界のビデオで最先端の劣化性能を達成する。
関連論文リスト
- Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。