論文の概要: InstantViR: Real-Time Video Inverse Problem Solver with Distilled Diffusion Prior
- arxiv url: http://arxiv.org/abs/2511.14208v1
- Date: Tue, 18 Nov 2025 07:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.988566
- Title: InstantViR: Real-Time Video Inverse Problem Solver with Distilled Diffusion Prior
- Title(参考訳): InstantViR: 拡散前に拡散した実時間ビデオ逆問題解法
- Authors: Weimin Bai, Suzhe Xu, Yiwei Ren, Jinhua Hao, Ming Sun, Wenzheng Chen, He Sun,
- Abstract要約: InstantViRは、事前訓練されたビデオ拡散を利用した超高速ビデオ再構成のためのアモータイズされた推論フレームワークである。
InstantViRは、リアルタイム、インタラクティブ、編集可能、ストリーミングのシナリオと互換性があることを示し、高品質のビデオ復元を現代の視覚システムの実用的なコンポーネントに変える。
- 参考スコア(独自算出の注目度): 13.775331675468024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video inverse problems are fundamental to streaming, telepresence, and AR/VR, where high perceptual quality must coexist with tight latency constraints. Diffusion-based priors currently deliver state-of-the-art reconstructions, but existing approaches either adapt image diffusion models with ad hoc temporal regularizers - leading to temporal artifacts - or rely on native video diffusion models whose iterative posterior sampling is far too slow for real-time use. We introduce InstantViR, an amortized inference framework for ultra-fast video reconstruction powered by a pre-trained video diffusion prior. We distill a powerful bidirectional video diffusion model (teacher) into a causal autoregressive student that maps a degraded video directly to its restored version in a single forward pass, inheriting the teacher's strong temporal modeling while completely removing iterative test-time optimization. The distillation is prior-driven: it only requires the teacher diffusion model and known degradation operators, and does not rely on externally paired clean/noisy video data. To further boost throughput, we replace the video-diffusion backbone VAE with a high-efficiency LeanVAE via an innovative teacher-space regularized distillation scheme, enabling low-latency latent-space processing. Across streaming random inpainting, Gaussian deblurring and super-resolution, InstantViR matches or surpasses the reconstruction quality of diffusion-based baselines while running at over 35 FPS on NVIDIA A100 GPUs, achieving up to 100 times speedups over iterative video diffusion solvers. These results show that diffusion-based video reconstruction is compatible with real-time, interactive, editable, streaming scenarios, turning high-quality video restoration into a practical component of modern vision systems.
- Abstract(参考訳): ビデオの逆問題は、ストリーミング、テレプレゼンス、AR/VRの基本であり、高い知覚品質と厳しいレイテンシの制約が共存しなければならない。
拡散に基づく事前処理は、現在最先端の再構築を提供しているが、既存のアプローチでは、画像拡散モデルをアドホックな時間的正規化子(時間的アーティファクトにつながる)で適用するか、あるいは、反復的な後続サンプリングがリアルタイムに使用するには遅すぎるネイティブビデオ拡散モデルに依存している。
InstantViRは、事前訓練されたビデオ拡散を利用した超高速ビデオ再構成のためのアモータイズされた推論フレームワークである。
本研究では,教師の強い時間的モデリングを継承しつつ,反復的なテスト時間最適化を完全に取り除き,劣化した映像を復元されたバージョンに直接1回のフォワードパスでマッピングする,強力な双方向ビデオ拡散モデル(教師)を因果自己回帰学習者に蒸留する。
蒸留は、教師の拡散モデルと既知の劣化演算子しか必要とせず、外部のペア化されたクリーン/ノイズの多いビデオデータに依存しない。
さらにスループットを向上させるため,ビデオ拡散バックボーンVAEを,教師空間正規化蒸留方式により高効率のLeanVAEに置き換え,低遅延遅延空間処理を実現する。
InstantViRは、ストリーミングのランダムな塗装、ガウスのデブロアリング、超解像度の他、NVIDIA A100 GPU上で35FPS以上で動作しながら、拡散ベースのベースラインの再構築品質をマッチまたは超越し、反復的なビデオ拡散解決器で最大100倍のスピードアップを達成する。
これらの結果から,拡散型映像再構成はリアルタイム,インタラクティブ,編集可能,ストリーミングのシナリオと互換性があり,高品質な映像復元を現代視覚システムの実用的コンポーネントに転換することを示す。
関連論文リスト
- LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。
我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文 参考訳(メタデータ) (2025-10-01T18:10:08Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。