論文の概要: DTG-Restore: Training-Free Diffusion Refinement for Generative Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2605.30431v1
- Date: Thu, 28 May 2026 18:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.157949
- Title: DTG-Restore: Training-Free Diffusion Refinement for Generative Video Super-Resolution
- Title(参考訳): DTG-Restore: ビデオスーパーリゾリューションのためのトレーニング不要拡散リファインメント
- Authors: Hidir Yesiltepe, Koutilya PNVR, Gaurav Pathak, Navaneeth Bodla, Bharat Singh, Pinar Yanardag, Jinrong Xie,
- Abstract要約: 条件分岐と非条件分岐を時間的に切り離すことにより、歪みと低解像度の映像を向上する学習自由フレームワークを提案する。
提案したDecoupled Time Guidance (DTG) は, よりクリーンな拡散段階における非条件分岐を評価する。
評価を容易にするため,さまざまなテキスト・ビデオモデルから合成した4400本の歪んだ480pビデオのベンチマークであるGenWarp480をキュレートした。
- 参考スコア(独自算出の注目度): 11.720438605063748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in video diffusion models has enabled remarkable generative fidelity, yet leveraging these priors for restoration remains limited by the strong coupling between conditional and unconditional branches in standard classifier-free guidance. We introduce a training-free framework that enhances distorted and low-resolution videos by decoupling these signals in time. Our proposed Decoupled Time Guidance (DTG) evaluates the unconditional branch at a cleaner diffusion timestep, providing a lookahead prior that preserves geometry while suppressing replication of warped content. This temporal bias is annealed throughout sampling, allowing the model to transition from structure correction to detail refinement without retraining. Combined with any off-the-shelf restoration module in a plug-and-play manner, our approach improves perceptual coherence and restores plausible structure in AIgenerated and real-world videos alike. To facilitate evaluation, we curate GenWarp480, a benchmark of 4,400 distorted 480p videos synthesized from diverse text-to-video models. GenWarp480 focuses on characteristic generative degradations such as warped faces, body misalignments, and spatial artifacts, providing a purpose-built testbed for assessing robustness to generative errors. Extensive experiments demonstrate that our method achieves significant improvements in structural fidelity and temporal stability without any model training.
- Abstract(参考訳): ビデオ拡散モデルの最近の進歩は、顕著な生成的忠実性を実現しているが、標準的な分類器フリーガイダンスにおいて、条件分岐と非条件分岐の強い結合によって、これらの事前の復元が制限されている。
我々は、これらの信号を時間的に切り離すことで、歪みと低解像度の映像を強化する、トレーニング不要のフレームワークを導入する。
提案したDecoupled Time Guidance (DTG) は,非条件分岐をよりクリーンな拡散時間ステップで評価する。
この時間バイアスはサンプリングを通してアニールされ、モデルが構造補正から細部の改良へと再訓練することなく移行することができる。
プラグ・アンド・プレイ方式で任意のオフ・ザ・シェルフ復元モジュールと組み合わせることで、私たちのアプローチは知覚的コヒーレンスを改善し、AI生成および実世界のビデオの可視構造を復元する。
評価を容易にするため,さまざまなテキスト・ビデオモデルから合成した4400本の歪んだ480pビデオのベンチマークであるGenWarp480をキュレートした。
GenWarp480は、変形した顔、体調不良、空間的アーティファクトなどの特徴的な生成上の劣化に焦点を当て、生成エラーに対する堅牢性を評価するための、目的を組み込んだテストベッドを提供する。
大規模実験により, モデルトレーニングを伴わない構造的忠実度, 時間的安定性の大幅な向上が得られた。
関連論文リスト
- Video Generation with Predictive Latents [50.3100375593545]
ビデオオートエンコーダ(Eational)は、視覚世界をコンパクトな潜在空間にマッピングすることで、潜在映像生成モデリングを可能にする。
ビデオラテントの拡散性を高める方法はまだ重要で未解決の課題である。
本稿では,映像再構成による予測学習を統一する,シンプルで効果的な予測的再構築手法を提案する。
論文 参考訳(メタデータ) (2026-05-04T01:30:04Z) - Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity [57.83511884904928]
本研究では,実証分析による自己回帰映像生成モデルの訓練を高速化する手法を検討する。
その結果,少ないビデオフレームでのトレーニングではトレーニング時間が大幅に短縮される一方で,エラーの蓄積が悪化し,生成したビデオに矛盾が生じることが判明した。
リプシッツ連続性に触発されて、生成されたビデオの一貫性を改善するためにRepresentation Continuity(ReCo)戦略を提案する。
論文 参考訳(メタデータ) (2026-04-08T09:43:03Z) - Your Pre-trained Diffusion Model Secretly Knows Restoration [55.7186754179308]
本研究では,事前学習した拡散モデルが本質的に復元動作を有しており,即時埋め込みを直接学習することで解錠可能であることを示す。
トレーニング済みのWANビデオモデルとFLUX画像モデルに軽量な学習プロンプトを導入し、それらを高性能な復元モデルに変換する。
論文 参考訳(メタデータ) (2026-04-06T17:59:04Z) - All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations [102.94052335735326]
All-in-one画像復元は、単一のモデルを用いて、さまざまな未知の劣化からクリーンなイメージを復元することを目的としている。
既存のアプローチは主に、現実世界の劣化過程に自然に存在する時間的連続性を見越して、フレームワイドの劣化変動に焦点を当てている。
Smoothly Evolving Unknown Degradations (SEUD) のシナリオでは、アクティブな劣化セットと劣化強度の両方が時間とともに連続的に変化する。
論文 参考訳(メタデータ) (2026-01-02T02:20:57Z) - CreativeVR: Diffusion-Prior-Guided Approach for Structure and Motion Restoration in Generative and Real Videos [17.81372151946937]
CreativeVRはAIGC(AIGC)と、厳格な構造と時間的アーティファクトを備えた実ビデオのための拡散優先のビデオ復元フレームワークである。
我々のDeep-Adapter-based methodは、モデルが入力にどれだけ強く従うかを制御する単一の精度ノブを公開する。
CreativeVRは、厳しいアーティファクトを持つビデオの最先端の結果を達成し、標準的なビデオ復元ベンチマークで競争的に実行します。
論文 参考訳(メタデータ) (2025-12-12T22:03:14Z) - Improving Temporal Consistency and Fidelity at Inference-time in Perceptual Video Restoration by Zero-shot Image-based Diffusion Models [5.61537470581101]
ゼロショット画像ベース拡散モデルを用いたビデオ再生における時間的コヒーレンス向上の課題に対処する。
本稿では,PSG(Perceptual Straightening Guidance)とMPES(Ensemble Sampling)の2つの補完的推論時間戦略を提案する。
論文 参考訳(メタデータ) (2025-10-29T11:40:06Z) - LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。
我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文 参考訳(メタデータ) (2025-10-01T18:10:08Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。