論文の概要: RViDeformer: Efficient Raw Video Denoising Transformer with a Larger Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2305.00767v2
- Date: Sun, 16 Mar 2025 10:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:34:01.490669
- Title: RViDeformer: Efficient Raw Video Denoising Transformer with a Larger Benchmark Dataset
- Title(参考訳): RViDeformer: より大規模なベンチマークデータセットを備えた効率的なRaw Video Denoising Transformer
- Authors: Huanjing Yue, Cong Cao, Lei Liao, Jingyu Yang,
- Abstract要約: 教師付き生ビデオのデノベーションのためのリアルな動きを持つ大規模なデータセットは存在しない。
ノイズクリーンな120グループからなるビデオデノケーションデータセット(ReCRVDと名づけられた)を構築した。
短距離・長距離の相関関係を探索するRViDeformer(RViDeformer)を提案する。
- 参考スコア(独自算出の注目度): 15.340530514779804
- License:
- Abstract: In recent years, raw video denoising has garnered increased attention due to the consistency with the imaging process and well-studied noise modeling in the raw domain. However, two problems still hinder the denoising performance. Firstly, there is no large dataset with realistic motions for supervised raw video denoising, as capturing noisy and clean frames for real dynamic scenes is difficult. To address this, we propose recapturing existing high-resolution videos displayed on a 4K screen with high-low ISO settings to construct noisy-clean paired frames. In this way, we construct a video denoising dataset (named as ReCRVD) with 120 groups of noisy-clean videos, whose ISO values ranging from 1600 to 25600. Secondly, while non-local temporal-spatial attention is beneficial for denoising, it often leads to heavy computation costs. We propose an efficient raw video denoising transformer network (RViDeformer) that explores both short and long-distance correlations. Specifically, we propose multi-branch spatial and temporal attention modules, which explore the patch correlations from local window, local low-resolution window, global downsampled window, and neighbor-involved window, and then they are fused together. We employ reparameterization to reduce computation costs. Our network is trained in both supervised and unsupervised manners, achieving the best performance compared with state-of-the-art methods. Additionally, the model trained with our proposed dataset (ReCRVD) outperforms the model trained with previous benchmark dataset (CRVD) when evaluated on the real-world outdoor noisy videos. Our code and dataset are available at https://github.com/cao-cong/RViDeformer.
- Abstract(参考訳): 近年,画像処理の整合性や生領域のノイズモデリングにより,生映像のデノナイジングが注目されている。
しかし、2つの問題が相変わらず性能を損なうことになった。
まず、実動シーンのノイズやクリーンなフレームをキャプチャすることは困難であるため、教師付き生映像デノナイズのための現実的な動きを持つ大規模なデータセットは存在しない。
そこで本研究では、4K画面上に表示されている既存の高解像度映像を高解像度のISO設定で再現し、ノイズクリーンなペアリングフレームを構築することを提案する。
このようにして、1600年から25600年までのISO値を持つ120のノイズクリーンなビデオからなるビデオデノケーションデータセット(ReCRVD)を構築した。
第二に、非局所的時間空間的注意はデノナイズには有益であるが、しばしば計算コストが重くなる。
短距離・長距離の相関関係を探索するRViDeformer(RViDeformer)を提案する。
具体的には,局所窓,局所低解像度窓,グローバルダウンサンプリング窓,隣接する窓からのパッチ相関を探索し,それらを融合するマルチブランチ空間および時間的アテンションモジュールを提案する。
我々は計算コストを削減するために再パラメータ化を用いる。
我々のネットワークは教師なしと教師なしの両方で訓練されており、最先端の手法と比較して最高の性能を実現している。
さらに、提案したデータセット(ReCRVD)でトレーニングしたモデルは、実世界の屋外ノイズビデオで評価した場合、以前のベンチマークデータセット(CRVD)でトレーニングしたモデルよりも優れている。
私たちのコードとデータセットはhttps://github.com/cao-cong/RViDeformer.comで公開されています。
関連論文リスト
- VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Low Latency Video Denoising for Online Conferencing Using CNN
Architectures [4.7805617044617446]
本稿では,ランタイムコストが低く,知覚品質の高いリアルタイムビデオデノナイズのためのパイプラインを提案する。
カスタムノイズ検出器アナライザは、重みに適応し、モデルの出力を改善するためにリアルタイムフィードバックを提供する。
論文 参考訳(メタデータ) (2023-02-17T00:55:54Z) - PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes [56.4361151691284]
PVDD(Practical Video Denoising dataset)は,200個のノイズクリーンな動的ビデオペアをsRGBおよびRAW形式で格納する。
限られた動き情報からなる既存のデータセットと比較すると、PVDDは自然な動きの変化する動的なシーンをカバーしている。
論文 参考訳(メタデータ) (2022-07-04T12:30:22Z) - IDR: Self-Supervised Image Denoising via Iterative Data Refinement [66.5510583957863]
本稿では,最先端のデノナイジング性能を実現するために,教師なしの実用的なデノナイジング手法を提案する。
本手法では, 1つのノイズ画像と1つのノイズモデルしか必要とせず, 実際の生画像に容易にアクセス可能である。
実世界のアプリケーションにおける生画像復調性能を評価するため,500シーンのシーンを含む高品質な生画像データセットSenseNoise-500を構築した。
論文 参考訳(メタデータ) (2021-11-29T07:22:53Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z) - Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic
Scenes [16.97140774983356]
我々は、おもちゃなどの制御可能なオブジェクトのためのモーションを作成し、各静的モーメントを複数回キャプチャして、クリーンなビデオフレームを生成する。
私たちの知る限り、これはノイズとクリーンのペアを持つ初めての動的ビデオデータセットです。
ビデオフレームの時間的,空間的,チャネル的相関を探索し,RViDeNetを提案する。
論文 参考訳(メタデータ) (2020-03-31T08:08:59Z) - CycleISP: Real Image Restoration via Improved Data Synthesis [166.17296369600774]
本稿では,前向きと逆方向のカメラ画像パイプラインをモデル化するフレームワークを提案する。
リアルな合成データに基づいて新しい画像認識ネットワークをトレーニングすることにより、実際のカメラベンチマークデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-03-17T15:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。