論文の概要: A Practical Gated Recurrent Transformer Network Incorporating Multiple Fusions for Video Denoising
- arxiv url: http://arxiv.org/abs/2409.06603v1
- Date: Tue, 10 Sep 2024 15:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 16:59:09.646295
- Title: A Practical Gated Recurrent Transformer Network Incorporating Multiple Fusions for Video Denoising
- Title(参考訳): ビデオデノイングのための多重核融合を組み込んだ実運用Gated Recurrent Transformer Network
- Authors: Kai Guo, Seungwon Choi, Jongseong Choi, Lae-Hoon Kim,
- Abstract要約: State-of-the-art(SOTA)ビデオ復調法では,複数フレーム同時復調機構を採用している。
本稿では,単一フレーム遅延のみでSOTA性能を実現するマルチフュージョンゲート・リカレント・トランスフォーマネットワーク(GRTN)を提案する。
- 参考スコア(独自算出の注目度): 1.5044085747326295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art (SOTA) video denoising methods employ multi-frame simultaneous denoising mechanisms, resulting in significant delays (e.g., 16 frames), making them impractical for real-time cameras. To overcome this limitation, we propose a multi-fusion gated recurrent Transformer network (GRTN) that achieves SOTA denoising performance with only a single-frame delay. Specifically, the spatial denoising module extracts features from the current frame, while the reset gate selects relevant information from the previous frame and fuses it with current frame features via the temporal denoising module. The update gate then further blends this result with the previous frame features, and the reconstruction module integrates it with the current frame. To robustly compute attention for noisy features, we propose a residual simplified Swin Transformer with Euclidean distance (RSSTE) in the spatial and temporal denoising modules. Comparative objective and subjective results show that our GRTN achieves denoising performance comparable to SOTA multi-frame delay networks, with only a single-frame delay.
- Abstract(参考訳): State-of-the-art(SOTA)ビデオデノケーション手法では、複数フレームの同時デノケーション機構が採用されているため、大きな遅延(例えば16フレーム)が発生し、リアルタイムカメラでは実用的ではない。
この制限を克服するために,単一フレーム遅延のみを伴ってSOTA復調性能を実現するマルチフュージョンゲート再帰変圧器ネットワーク(GRTN)を提案する。
具体的には、空間認知モジュールは、現在のフレームから特徴を抽出し、リセットゲートは、前のフレームから関連情報を選択し、時間認知モジュールを介して現在のフレーム特徴と融合させる。
更新ゲートは、この結果を以前のフレーム機能とさらにブレンドし、再構築モジュールは現在のフレームと統合する。
雑音のある特徴に対する注意を頑健に計算するために,空間的および時間的重畳加群におけるユークリッド距離(RSSTE)を有する残差単純化スウィン変換器を提案する。
比較対象および主観的結果から,GRTNは単一フレーム遅延のみを伴って,SOTAマルチフレーム遅延ネットワークに匹敵するノイズ発生性能を達成できることが示された。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Low Latency Video Denoising for Online Conferencing Using CNN
Architectures [4.7805617044617446]
本稿では,ランタイムコストが低く,知覚品質の高いリアルタイムビデオデノナイズのためのパイプラインを提案する。
カスタムノイズ検出器アナライザは、重みに適応し、モデルの出力を改善するためにリアルタイムフィードバックを提供する。
論文 参考訳(メタデータ) (2023-02-17T00:55:54Z) - Gated Recurrent Unit for Video Denoising [5.515903319513226]
本稿では,映像復号化のためのゲートリカレント・ユニット(GRU)機構に基づく新しい映像復号化モデルを提案する。
実験の結果, GRU-VDネットワークは, 客観的かつ主観的に, 高い品質が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-17T14:34:54Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - Unidirectional Video Denoising by Mimicking Backward Recurrent Modules
with Look-ahead Forward Ones [72.68740880786312]
双方向リカレントネットワーク (BiRNN) は、いくつかのビデオ復元作業において魅力的な性能を示した。
BiRNNは本質的にオフラインである。最後のフレームから現在のフレームへ伝播するために、後方リカレントモジュールを使用するからだ。
本稿では,一方向ビデオ復調のための前方および前方再帰モジュールからなる新しいリカレントネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-12T05:33:15Z) - Multi-Stage Raw Video Denoising with Adversarial Loss and Gradient Mask [14.265454188161819]
低照度下で撮影した生映像を消音する学習型手法を提案する。
まず、畳み込みニューラルネットワーク(CNN)を用いて、隣接するフレームを現在のフレームに明示的にアライメントする。
次に、登録されたフレームを別のCNNを使って融合し、最終識別フレームを得る。
論文 参考訳(メタデータ) (2021-03-04T06:57:48Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。