論文の概要: Video Super-Resolution: All You Need is a Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.03355v2
- Date: Thu, 13 Mar 2025 16:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 17:08:08.240747
- Title: Video Super-Resolution: All You Need is a Video Diffusion Model
- Title(参考訳): ビデオの超解像:ビデオ拡散モデル
- Authors: Zhihao Zhan, Wang Pang, Xiang Zhu, Yechao Bai,
- Abstract要約: 本稿ではDiffusion Posterior Samplingフレームワークに基づく汎用ビデオ超解像アルゴリズムを提案する。
実世界の物理を学習する強力なモデルは、先行知識として様々な動きパターンを容易に扱うことができると論じる。
- 参考スコア(独自算出の注目度): 3.052019331122618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a generic video super-resolution algorithm in this paper, based on the Diffusion Posterior Sampling framework with an unconditional video generation model in latent space. The video generation model, a diffusion transformer, functions as a space-time model. We argue that a powerful model, which learns the physics of the real world, can easily handle various kinds of motion patterns as prior knowledge, thus eliminating the need for explicit estimation of optical flows or motion parameters for pixel alignment. Furthermore, a single instance of the proposed video diffusion transformer model can adapt to different sampling conditions without re-training. Empirical results on synthetic and real-world datasets demonstrate that our method has strong capabilities to address video super-resolution challenges.
- Abstract(参考訳): 本稿では,非条件ビデオ生成モデルを用いた拡散後サンプリングフレームワークに基づく,汎用的なビデオ超解像アルゴリズムを提案する。
拡散変換器であるビデオ生成モデルは、時空モデルとして機能する。
実世界の物理を学習する強力なモデルは、様々な動きパターンを事前の知識として容易に扱えるので、光学フローの明示的な推定や画素アライメントのための動きパラメーターの必要性を排除できる。
さらに,ビデオ拡散変圧器モデルの単一インスタンスは,再学習せずに異なるサンプリング条件に適応することができる。
合成および実世界のデータセットにおける実験結果から,本手法はビデオ超解像課題に対処する強力な能力を有することが示された。
関連論文リスト
- RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models [3.052019331122618]
本研究では,動きのぼかしを時間的平均化現象として扱う新しい単一像デブロアリング手法を提案する。
私たちの中心となるイノベーションは、トレーニング済みの動画拡散トランスフォーマーモデルを利用して、多様な動きのダイナミクスを捉えることです。
合成および実世界のデータセットにおける実験結果から,本手法は複雑な動きのぼかしシナリオを損なう場合,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-22T03:01:54Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。
本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-05T12:53:05Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。