論文の概要: VDFP: Video Deflickering with Flicker-banding Priors
- arxiv url: http://arxiv.org/abs/2605.21079v1
- Date: Wed, 20 May 2026 12:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.657334
- Title: VDFP: Video Deflickering with Flicker-banding Priors
- Title(参考訳): VDFP:フリックバンドプリミティブによるビデオデクリッカリング
- Authors: Zhiyi Zhou, Libo Zhu, Zihan Zhou, Yulun Zhang, Xiaokang Yang,
- Abstract要約: スマートフォンでデジタルスクリーンをキャプチャすることは、ハードウェアの同期ミスマッチにより、しばしば深刻なバンドリングを引き起こす。
既存のビデオ復元手法は、これらの構造化された周期的な輝度変動に苦しむ。
本稿では,VDFP (Video Deflickering with Flicker-banding Priors) を提案する。
- 参考スコア(独自算出の注目度): 45.95262551551273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing digital screens with smartphones frequently induces severe banding due to hardware synchronization mismatches. Existing video restoration methods struggle with these structured, periodic luminance fluctuations, often resulting in residual artifacts or over-smoothed textures. We firstly construct DeViD, a real-world dataset in various scenes to deal with the lack of available datasets.Then we propose VDFP (Video Deflickering with Flicker-banding Priors), a novel perception-guided generation framework. First, we introduce a Degradation Field Modeling Based on Rolling Shutter Mechanism (DFM) capable of synthesizing complex multi-banding scenarios. Second, we present a spatial-temporal continuous prior perception (CPP). Unlike traditional binary segmentation, this module is optimized via a Flicker-Aware Mean Squared Error (FA-MSE) to capture the luminance transitions. By zero-initializing an augmented input layer, our model preserves pre-trained generative priors as well as spatial-temporal prior perception. Extensive experiments demonstrate that VDFP significantly outperforms other methods, eliminating complex banding with high-fidelity spatial details and temporal consistency. Our dataset and code will be released at~ https://github.com/ZhiyiZZhou/VDFP.
- Abstract(参考訳): スマートフォンでデジタルスクリーンをキャプチャすることは、ハードウェアの同期ミスマッチにより、しばしば深刻なバンドリングを引き起こす。
既存のビデオ復元法は、これらの構造化された周期的な輝度変動に苦しむが、しばしば残留した人工物や過度に滑らかなテクスチャをもたらす。
まず、利用可能なデータセットの不足に対処するため、さまざまな場面で実際のデータセットであるDeViDを構築し、新しい知覚誘導生成フレームワークであるVDFP(Video Deflickering with Flicker-banding Priors)を提案する。
まず, 複雑なマルチバンドシナリオを合成可能な転がりシャッター機構(DFM)に基づく劣化場モデリングを提案する。
第2に,空間的時間的連続的事前知覚(CPP)を提示する。
従来のバイナリセグメンテーションとは異なり、このモジュールはFlicker-Aware Mean Squared Error (FA-MSE)を介して最適化され、輝度遷移をキャプチャする。
拡張入力層をゼロ初期化することにより、事前学習した生成前と空間的時間的事前認識を保存できる。
広汎な実験により、VDFPは他の手法よりも優れており、高忠実度空間詳細と時間的一貫性を持つ複雑なバンドリングを排除している。
データセットとコードはhttps://github.com/ZhiyiZZhou/VDFP.comからリリースされます。
関連論文リスト
- ReMATF: Recurrent Motion-Adaptive Multi-scale Turbulence Mitigation for Dynamic Scenes [4.282240730573401]
大気の乱流は、幾何学的歪み、ぼかし、時間的ひねりなどの歪みを導入することで、映像の品質を著しく低下させる。
本稿では,空間的詳細と時間的安定性を保ちながら,同時に2フレームのみを使用して映像を復元する軽量なリカレントフレームワークであるReMATFを提案する。
論文 参考訳(メタデータ) (2026-05-20T17:28:49Z) - Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark [22.5556672954071]
SCI(Spectral Compressive Imaging)は、ダイナミックスペクトルビジョンにおいて大きな可能性を秘めている。
既存の再建法は、主にイメージベースであり、2つの制限がある。
フレーム・バイ・フレームの再構築パラダイムは、ビデオ知覚において重要な時間的一貫性を確保するのに失敗する。
論文 参考訳(メタデータ) (2026-02-28T12:11:13Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文 参考訳(メタデータ) (2026-01-06T08:02:14Z) - MiVID: Multi-Strategic Self-Supervision for Video Frame Interpolation using Diffusion Model [2.9795035162522194]
この記事では、ビデオレンダリングのための軽量で自己監督型の拡散ベースのフレームワークであるMiVIDを紹介する。
本モデルでは,3次元U-Netバックボーンとトランスフォーマスタイルの時間的注意を組み合わせることで,明示的な動き推定の必要性を解消する。
この結果から,MiVIDは50エポックしか得られず,教師付きベースラインと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-08T14:10:04Z) - Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model [92.61216319417208]
画像の劣化に対する新しい拡散モデル(DM)に基づくフレームワークを提案する。
我々の研究は、ぼやけた画像のテクスチャを回復するのに役立つ事前知識を生成するために、DMを実行する。
生成したテクスチャをフル活用するために,テクスチャ転送変換層(TTformer)を提案する。
論文 参考訳(メタデータ) (2025-07-18T01:50:31Z) - Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention [5.196236145367301]
動き不変グラフ融合を利用した新しいToF深度決定ネットワークを提案する。
フレーム間の深さシフトにもかかわらず、グラフ構造は時間的自己相似性を示し、グラフ融合のためのクロスフレーム幾何学的注意を可能にする。
提案手法は,合成DVToFデータセットの精度と整合性の観点から最先端の性能を実現し,Kinectv2データセットの堅牢な一般化を示す。
論文 参考訳(メタデータ) (2025-06-30T06:29:24Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。