論文の概要: Randomized Conditional Flow Matching for Video Prediction
- arxiv url: http://arxiv.org/abs/2211.14575v1
- Date: Sat, 26 Nov 2022 14:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:14:51.576832
- Title: Randomized Conditional Flow Matching for Video Prediction
- Title(参考訳): ビデオ予測のためのランダム化条件付きフローマッチング
- Authors: Aram Davtyan, Sepehr Sameni, Paolo Favaro
- Abstract要約: 本稿では,潜在フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのランダムフレーム条件フロー統合(Random frame conditional flow Integration)と呼ぶ。
RIVERは,従来のビデオ予測ベンチマークよりも優れ,性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 23.627746788499696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel generative model for video prediction based on latent
flow matching, an efficient alternative to diffusion-based models. In contrast
to prior work that either incurs a high training cost by modeling the past
through a memory state, as in recurrent neural networks, or limits the
computational load by conditioning only on a predefined window of past frames,
we efficiently and effectively take the past into account by conditioning at
inference time only on a small random set of past frames at each integration
step of the learned flow. Moreover, to enable the generation of high-resolution
videos and speed up the training, we work in the latent space of a pretrained
VQGAN. Furthermore, we propose to approximate the initial condition of the flow
ODE with the previous noisy frame. This allows to reduce the number of
integration steps and hence, speed up the sampling at inference time. We call
our model Random frame conditional flow Integration for VidEo pRediction, or,
in short, RIVER. We show that RIVER achieves superior or on par performance
compared to prior work on common video prediction benchmarks.
- Abstract(参考訳): 本稿では,拡散モデルに対する効率的な代替手段である潜時流マッチングに基づく映像予測のための新しい生成モデルを提案する。
繰り返しニューラルネットワークのように記憶状態を通じて過去をモデリングし、あるいは過去のフレームの事前定義されたウィンドウにのみ条件付けすることで計算負荷を制限することにより、トレーニングコストを高くする以前の作業とは対照的に、学習フローの各統合ステップにおいて、過去のフレームの小さなランダムなセットにのみ推論時間に条件付けすることで、効率的に効果的に過去を考慮に入れます。
さらに,高精細度ビデオの生成とトレーニングの高速化のために,事前訓練されたVQGANの潜在空間で作業する。
さらに,フローODEの初期状態と,それ以前のノイズフレームを近似する手法を提案する。
これにより、統合ステップの数を削減し、推論時にサンプリングを高速化できる。
我々は、VidEo pRedictionのためのRandomフレーム条件フロー統合、あるいは略してRIVERと呼ぶ。
RIVERは,従来のビデオ予測ベンチマークよりも優れた性能を示すことを示す。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - A Simple Early Exiting Framework for Accelerated Sampling in Diffusion Models [14.859580045688487]
拡散モデルの現実的なボトルネックはサンプリング速度である。
スコア推定に必要な計算を適応的に割り当てる新しいフレームワークを提案する。
本研究では,画像品質を損なうことなく,拡散モデルのサンプリングスループットを大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-08-12T05:33:45Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。