論文の概要: Improving Temporal Consistency and Fidelity at Inference-time in Perceptual Video Restoration by Zero-shot Image-based Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.25420v1
- Date: Wed, 29 Oct 2025 11:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.487787
- Title: Improving Temporal Consistency and Fidelity at Inference-time in Perceptual Video Restoration by Zero-shot Image-based Diffusion Models
- Title(参考訳): ゼロショット画像ベース拡散モデルによる知覚ビデオ再生における時間的一貫性と推論時の忠実度の改善
- Authors: Nasrin Rahimi, A. Murat Tekalp,
- Abstract要約: ゼロショット画像ベース拡散モデルを用いたビデオ再生における時間的コヒーレンス向上の課題に対処する。
本稿では,PSG(Perceptual Straightening Guidance)とMPES(Ensemble Sampling)の2つの補完的推論時間戦略を提案する。
- 参考スコア(独自算出の注目度): 5.61537470581101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as powerful priors for single-image restoration, but their application to zero-shot video restoration suffers from temporal inconsistencies due to the stochastic nature of sampling and complexity of incorporating explicit temporal modeling. In this work, we address the challenge of improving temporal coherence in video restoration using zero-shot image-based diffusion models without retraining or modifying their architecture. We propose two complementary inference-time strategies: (1) Perceptual Straightening Guidance (PSG) based on the neuroscience-inspired perceptual straightening hypothesis, which steers the diffusion denoising process towards smoother temporal evolution by incorporating a curvature penalty in a perceptual space to improve temporal perceptual scores, such as Fr\'echet Video Distance (FVD) and perceptual straightness; and (2) Multi-Path Ensemble Sampling (MPES), which aims at reducing stochastic variation by ensembling multiple diffusion trajectories to improve fidelity (distortion) scores, such as PSNR and SSIM, without sacrificing sharpness. Together, these training-free techniques provide a practical path toward temporally stable high-fidelity perceptual video restoration using large pretrained diffusion models. We performed extensive experiments over multiple datasets and degradation types, systematically evaluating each strategy to understand their strengths and limitations. Our results show that while PSG enhances temporal naturalness, particularly in case of temporal blur, MPES consistently improves fidelity and spatio-temporal perception--distortion trade-off across all tasks.
- Abstract(参考訳): 拡散モデルは単一画像復元の強力な先駆者として現れてきたが、そのゼロショットビデオ復元への応用は、サンプリングの確率的性質と明示的な時間的モデリングを取り入れた複雑さにより、時間的不整合に悩まされている。
本研究では,ゼロショット画像ベース拡散モデルを用いた映像復元における時間的コヒーレンス向上の課題を,アーキテクチャの再トレーニングや修正を伴わずに解決する。
神経科学にインスパイアされた知覚的ストレートニング仮説に基づく知覚的ストレートニングガイダンス(PSG)は,Fr\echet Video Distance(FVD)や知覚的ストレートネス(MPES)などの時間的知覚的スコアを改善するために,知覚空間に曲率ペナルティを組み込むことによって,よりスムーズな時間的進化に向けた拡散認知プロセスを促進する。
これらのトレーニングフリーな手法は、大きな事前学習拡散モデルを用いて、時間的に安定な高忠実度知覚ビデオ再生に向けた実践的な道筋を提供する。
我々は、複数のデータセットと分解タイプに対して広範な実験を行い、それぞれの戦略を体系的に評価し、その強みと限界を理解した。
以上の結果から,PSGは時間的自然性,特に時間的曖昧性において向上するが,MPESは時間的不明瞭性や空間的知覚-ゆがみのトレードオフを常に改善することがわかった。
関連論文リスト
- Harnessing Diffusion-Yielded Score Priors for Image Restoration [29.788482710572307]
深部画像復元モデルは、劣化した画像空間から自然画像空間へのマッピングを学習することを目的としている。
MSEベース、GANベース、拡散ベースメソッドの3つの主要なクラスが登場した。
これらの課題に対処するための新しい手法HYPIRを提案する。
論文 参考訳(メタデータ) (2025-07-28T07:55:34Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Zero-Shot Video Restoration and Enhancement Using Pre-Trained Image Diffusion Model [15.170889156729777]
本稿では,事前学習した画像拡散モデルに基づいて,ゼロショット映像の復元と拡張を行うための第1のフレームワークを提案する。
本手法は,任意の拡散型画像復元・拡張手法に挿入可能なプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2024-07-02T05:31:59Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。