論文の概要: Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising
- arxiv url: http://arxiv.org/abs/2603.10417v1
- Date: Wed, 11 Mar 2026 05:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.787367
- Title: Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising
- Title(参考訳): Frames2Residual: 自己監督型ビデオ復調のための時空間デカップリング
- Authors: Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao,
- Abstract要約: フレーム間の時間的一貫性とフレーム内の空間的特異性を統合するのが困難である。
既存のビデオブラインド・スポットネットワーク(BSN)は中心画素をマスキングすることでノイズ独立性を必要とするため、この制約は空間的エビデンス回復のためのテクスチャの使用を妨げている。
視覚的時間的整合性モデリングと非視覚的空間的テクスチャ回復という,自己指導型トレーニングを2段階に分けたフレームワークであるロス2Residuals(F2R)を提案する。
- 参考スコア(独自算出の注目度): 28.397068445063724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised video denoising methods typically extend image-based frameworks into the temporal dimension, yet they often struggle to integrate inter-frame temporal consistency with intra-frame spatial specificity. Existing Video Blind-Spot Networks (BSNs) require noise independence by masking the center pixel, this constraint prevents the use of spatial evidence for texture recovery, thereby severing spatiotemporal correlations and causing texture loss. To address this, we propose Frames2Residual (F2R), a spatiotemporal decoupling framework that explicitly divides self-supervised training into two distinct stages: blind temporal consistency modeling and non-blind spatial texture recovery. In Stage 1, a blind temporal estimator learns inter-frame consistency using a frame-wise blind strategy, producing a temporally consistent anchor. In Stage 2, a non-blind spatial refiner leverages this anchor to safely reintroduce the center frame and recover intra-frame high-frequency spatial residuals while preserving temporal stability. Extensive experiments demonstrate that our decoupling strategy allows F2R to outperform existing self-supervised methods on both sRGB and raw video benchmarks.
- Abstract(参考訳): 自己監督型ビデオ復調法は通常、画像ベースのフレームワークを時間次元に拡張するが、フレーム間の時間的一貫性とフレーム内の空間的特異性を統合するのに苦労することが多い。
既存のビデオブラインド・スポットネットワーク(BSN)は、中心画素をマスキングすることでノイズ独立性を必要とするため、この制約により、テクスチャ回復のための空間的エビデンスの使用を防止し、時空間相関を切断し、テクスチャ損失を引き起こす。
そこで本稿では,視覚的時間的整合性モデリングと非視覚的空間的テクスチャ回復という,自己指導型トレーニングを明確に2段階に分割した時空間デカップリングフレームワークであるFrames2Residual(F2R)を提案する。
ステージ1では、ブラインド時間推定器がフレーム単位のブラインド戦略を用いてフレーム間の一貫性を学習し、時間的に一貫したアンカーを生成する。
ステージ2では、このアンカーを利用して中央フレームを安全に再導入し、時間的安定性を維持しながらフレーム内の高周波空間残留を回復する。
大規模な実験により、我々のデカップリング戦略により、F2Rは、sRGBと生のビデオベンチマークの両方において、既存の自己監督手法より優れていることが示された。
関連論文リスト
- Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Recurrent Self-Supervised Video Denoising with Denser Receptive Field [33.3711070590966]
自己監督型ビデオデノベーションは、盲点ネットワークを利用することで、かなり進歩している。
従来の自己監督型ビデオデノゲーション手法は、参照フレーム全体または隣接フレーム内の重要な情報損失とテクスチャ破壊に悩まされていた。
本稿では、より密集した受容場を持つ参照フレームと隣接フレームの両方をフル活用する自己教師型ビデオデノベーションのためのRDRFを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:09:08Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。