論文の概要: Efficient Video Prediction via Sparsely Conditioned Flow Matching
- arxiv url: http://arxiv.org/abs/2211.14575v2
- Date: Thu, 24 Aug 2023 19:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 18:00:03.458570
- Title: Efficient Video Prediction via Sparsely Conditioned Flow Matching
- Title(参考訳): スパース条件付きフローマッチングによる効率的なビデオ予測
- Authors: Aram Davtyan, Sepehr Sameni, Paolo Favaro
- Abstract要約: 本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
- 参考スコア(独自算出の注目度): 24.32740918613266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel generative model for video prediction based on latent
flow matching, an efficient alternative to diffusion-based models. In contrast
to prior work, we keep the high costs of modeling the past during training and
inference at bay by conditioning only on a small random set of past frames at
each integration step of the image generation process. Moreover, to enable the
generation of high-resolution videos and to speed up the training, we work in
the latent space of a pretrained VQGAN. Finally, we propose to approximate the
initial condition of the flow ODE with the previous noisy frame. This allows to
reduce the number of integration steps and hence, speed up the sampling at
inference time. We call our model Random frame conditioned flow Integration for
VidEo pRediction, or, in short, RIVER. We show that RIVER achieves superior or
on par performance compared to prior work on common video prediction
benchmarks, while requiring an order of magnitude fewer computational
resources.
- Abstract(参考訳): 本稿では,拡散モデルに対する効率的な代替手段である潜時流マッチングに基づく映像予測のための新しい生成モデルを提案する。
従来の作業とは対照的に、画像生成プロセスの各統合ステップにおいて、過去のフレームの小さなランダムなセットだけを条件にすることで、トレーニング中の過去のモデリングやベイでの推論のコストを高く保ちます。
さらに,高解像度ビデオの生成とトレーニングの高速化を目的として,事前学習VQGANの潜時空間で作業を行う。
最後に,従来のノイズフレームを用いた流れodeの初期条件を近似する。
これにより、統合ステップの数を削減し、推論時にサンプリングを高速化できる。
ビデオ予測のためのモデルランダムフレーム条件付きフロー統合、あるいは、要するにriverと呼んでいます。
RIVERは、従来の一般的なビデオ予測ベンチマークよりも、桁違いに少ない計算資源を必要とするが、性能が優れていることを示す。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - A Simple Early Exiting Framework for Accelerated Sampling in Diffusion Models [14.859580045688487]
拡散モデルの現実的なボトルネックはサンプリング速度である。
スコア推定に必要な計算を適応的に割り当てる新しいフレームワークを提案する。
本研究では,画像品質を損なうことなく,拡散モデルのサンプリングスループットを大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-08-12T05:33:45Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。