Fugu-MT 論文翻訳(概要): Video Super-Resolution: All You Need is a Video Diffusion Model

論文の概要: Video Super-Resolution: All You Need is a Video Diffusion Model

arxiv url: http://arxiv.org/abs/2503.03355v3
Date: Mon, 17 Mar 2025 02:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.364068
Title: Video Super-Resolution: All You Need is a Video Diffusion Model
Title（参考訳）: ビデオの超解像:ビデオ拡散モデル
Authors: Zhihao Zhan, Wang Pang, Xiang Zhu, Yechao Bai,
Abstract要約: 本稿ではDiffusion Posterior Samplingフレームワークに基づく汎用ビデオ超解像アルゴリズムを提案する。実世界の物理を学習する強力なモデルは、先行知識として様々な動きパターンを容易に扱うことができると論じる。
参考スコア（独自算出の注目度）: 3.052019331122618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a generic video super-resolution algorithm in this paper, based on the Diffusion Posterior Sampling framework with an unconditional video generation model in latent space. The video generation model, a diffusion transformer, functions as a space-time model. We argue that a powerful model, which learns the physics of the real world, can easily handle various kinds of motion patterns as prior knowledge, thus eliminating the need for explicit estimation of optical flows or motion parameters for pixel alignment. Furthermore, a single instance of the proposed video diffusion transformer model can adapt to different sampling conditions without re-training. Empirical results on synthetic and real-world datasets demonstrate that our method has strong capabilities to address video super-resolution challenges.
Abstract（参考訳）: 本稿では,非条件ビデオ生成モデルを用いた拡散後サンプリングフレームワークに基づく,汎用的なビデオ超解像アルゴリズムを提案する。拡散変換器であるビデオ生成モデルは、時空モデルとして機能する。実世界の物理を学習する強力なモデルは、様々な動きパターンを事前の知識として容易に扱えるので、光学フローの明示的な推定や画素アライメントのための動きパラメーターの必要性を排除できる。さらに,ビデオ拡散変圧器モデルの単一インスタンスは,再学習せずに異なるサンプリング条件に適応することができる。合成および実世界のデータセットにおける実験結果から,本手法はビデオ超解像課題に対処する強力な能力を有することが示された。

関連論文リスト

FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文参考訳（メタデータ） (2025-06-01T19:55:33Z)
RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。生成フェーズにおける検索機構の導入を提唱する。私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文参考訳（メタデータ） (2025-04-09T08:14:05Z)
Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models [3.052019331122618]
本研究では,動きのぼかしを時間的平均化現象として扱う新しい単一像デブロアリング手法を提案する。私たちの中心となるイノベーションは、トレーニング済みの動画拡散トランスフォーマーモデルを利用して、多様な動きのダイナミクスを捉えることです。合成および実世界のデータセットにおける実験結果から,本手法は複雑な動きのぼかしシナリオを損なう場合,既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-22T03:01:54Z)
Diffusing Differentiable Representations [60.72992910766525]
本稿では,事前学習した拡散モデルを用いて,微分可能な表現(拡散)をサンプリングする,新しい学習自由な手法を提案する。差分によって引き起こされるサンプルに対する暗黙の制約を特定し、この制約に対処することで、生成されたオブジェクトの一貫性と詳細が大幅に改善されることを示す。
論文参考訳（メタデータ） (2024-12-09T20:42:58Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文参考訳（メタデータ） (2024-10-05T12:53:05Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-25T17:59:26Z)
Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文参考訳（メタデータ） (2024-01-23T18:05:25Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。