論文の概要: Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer
- arxiv url: http://arxiv.org/abs/2205.00214v1
- Date: Sat, 30 Apr 2022 09:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:21:22.142003
- Title: Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer
- Title(参考訳): 二段式空間チャネル変換器による細粒度ビデオデノイジング
- Authors: Wulian Yun, Mengshi Qi, Chuanming Wang, Huiyuan Fu, Huadong Ma
- Abstract要約: Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
- 参考スコア(独自算出の注目度): 29.03463312813923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video denoising aims to recover high-quality frames from the noisy video.
While most existing approaches adopt convolutional neural networks(CNNs) to
separate the noise from the original visual content, however, CNNs focus on
local information and ignore the interactions between long-range regions.
Furthermore, most related works directly take the output after spatio-temporal
denoising as the final result, neglecting the fine-grained denoising process.
In this paper, we propose a Dual-stage Spatial-Channel Transformer (DSCT) for
coarse-to-fine video denoising, which inherits the advantages of both
Transformer and CNNs. Specifically, DSCT is proposed based on a progressive
dual-stage architecture, namely a coarse-level and a fine-level to extract
dynamic feature and static feature, respectively. At both stages, a
Spatial-Channel Encoding Module(SCEM) is designed to model the long-range
contextual dependencies at spatial and channel levels. Meanwhile, we design a
Multi-scale Residual Structure to preserve multiple aspects of information at
different stages, which contains a Temporal Features Aggregation Module(TFAM)
to summarize the dynamic representation. Extensive experiments on four publicly
available datasets demonstrate our proposed DSCT achieves significant
improvements compared to the state-of-the-art methods.
- Abstract(参考訳): Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、元の視覚的コンテンツからノイズを分離するが、CNNはローカル情報に焦点を当て、長距離領域間の相互作用を無視する。
さらに、ほとんどの関連する研究は、時空間復調後の出力を直接最終結果としており、微粒化復調過程を無視している。
本稿では,2段式空間チャネルトランスフォーマ(dsct)による細粒度ビデオデノイジングを提案し,トランスフォーマとcnnの両方の利点を継承する。
具体的には, 動的特徴と静的特徴をそれぞれ抽出するための粗レベルと細レベルという, 進歩的二段階アーキテクチャに基づいてdsctを提案する。
どちらの段階でも、空間チャネル符号化モジュール(SCEM)は空間およびチャネルレベルでの長距離コンテキスト依存をモデル化するために設計されている。
一方,動的表現を要約する時間的特徴集約モジュール(tfam)を含む,情報の多面的な側面を異なる段階に保持するマルチスケール残差構造を設計する。
4つの公開データセットに対する大規模な実験により、提案したDSCTは最先端の手法と比較して大幅に改善された。
関連論文リスト
- IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。
次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:36:54Z) - Two-stage Progressive Residual Dense Attention Network for Image
Denoising [0.680228754562676]
多くのディープCNNベースのdenoisingモデルは、より重要で有用な特徴に注意を払わずに、ノイズの多い画像の階層的特徴を同様に利用し、比較的低いパフォーマンスをもたらす。
本稿では,2つのサブタスクに分割してノイズを段階的に除去する2段階のプログレッシブ・レジデンシャル・アテンション・ネットワーク(TSP-RDANet)を設計する。
2つの異なるアテンション機構に基づくデノナイジングネットワークは、2つのシーケンシャルなサブタスクのために設計されている。
論文 参考訳(メタデータ) (2024-01-05T14:31:20Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。