論文の概要: Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
- arxiv url: http://arxiv.org/abs/2501.08331v3
- Date: Thu, 23 Jan 2025 01:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:25.028063
- Title: Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
- Title(参考訳): Go-with-the-Flow:リアルタイムワープノイズを用いた運動制御可能なビデオ拡散モデル
- Authors: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu,
- Abstract要約: 本研究では,構造付き潜時雑音サンプリングによる動画拡散モデルの構築を行う。
本稿では,ランダムな時空間のガウス性と相関した雑音を置き換え,リアルタイムに動作可能な新しいノイズワープアルゴリズムを提案する。
提案アルゴリズムの効率性により,ワープノイズを最小限のオーバーヘッドで使用することで,最新の映像拡散ベースモデルを微調整することができる。
- 参考スコア(独自算出の注目度): 19.422355461775343
- License:
- Abstract: Generative modeling aims to transform random noise into structured outputs. In this work, we enhance video diffusion models by allowing motion control via structured latent noise sampling. This is achieved by just a change in data: we pre-process training videos to yield structured noise. Consequently, our method is agnostic to diffusion model design, requiring no changes to model architectures or training pipelines. Specifically, we propose a novel noise warping algorithm, fast enough to run in real time, that replaces random temporal Gaussianity with correlated warped noise derived from optical flow fields, while preserving the spatial Gaussianity. The efficiency of our algorithm enables us to fine-tune modern video diffusion base models using warped noise with minimal overhead, and provide a one-stop solution for a wide range of user-friendly motion control: local object motion control, global camera movement control, and motion transfer. The harmonization between temporal coherence and spatial Gaussianity in our warped noise leads to effective motion control while maintaining per-frame pixel quality. Extensive experiments and user studies demonstrate the advantages of our method, making it a robust and scalable approach for controlling motion in video diffusion models. Video results are available on our webpage: https://eyeline-research.github.io/Go-with-the-Flow. Source code and model checkpoints are available on GitHub: https://github.com/Eyeline-Research/Go-with-the-Flow.
- Abstract(参考訳): 生成モデリングは、ランダムノイズを構造化出力に変換することを目的としている。
本研究では,構造付き潜時雑音サンプリングによる動画拡散モデルの構築を行う。
トレーニングビデオを前処理して、構造化されたノイズを発生させます。
したがって,本手法は拡散モデル設計に非依存であり,モデルアーキテクチャやトレーニングパイプラインの変更は不要である。
具体的には,空間的ガウス性を維持しつつ,光学的流れ場から生じる相関的な歪みをランダムな時間的ガウス性に置き換える,リアルタイムに動作可能な新しいノイズワープアルゴリズムを提案する。
提案アルゴリズムの効率性は,ゆがんだ雑音を最小限のオーバーヘッドで微調整し,局所物体の動き制御,グローバルカメラの動き制御,モーショントランスファーなど,幅広いユーザフレンドリーな動作制御のためのワンストップソリューションを提供する。
時間的コヒーレンスと空間的ガウス性との調和は, フレーム当たりの画質を維持しつつ, 効果的な動き制御につながる。
広汎な実験とユーザスタディにより、ビデオ拡散モデルにおける動きを制御するための堅牢でスケーラブルなアプローチとして、本手法の利点が示された。
ビデオの結果は、私たちのWebページ(https://eyeline-research.github.io/Go-with-the-Flow)で公開されています。
ソースコードとモデルチェックポイントはGitHubで入手できる。
関連論文リスト
- Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection [15.72443573134312]
本研究では,ビデオから抽出した特徴ベクトルを,固定分布を持つランダム変数の実現として扱う。
我々は、デノナイジングスコアマッチングの修正を用いて、ビデオ異常検出装置を訓練する。
5つの人気ビデオ異常検出ベンチマーク実験により,最先端の性能が示された。
論文 参考訳(メタデータ) (2024-03-21T15:46:19Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation [10.5019872575418]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Tracking Everything Everywhere All at Once [111.00807055441028]
ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。
我々はOmniMotionと呼ばれる完全で一貫した動作表現を提案する。
提案手法は,従来の最先端手法よりも定量的にも定性的にも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-06-08T17:59:29Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。