論文の概要: Efficient Video Prediction via Sparsely Conditioned Flow Matching
- arxiv url: http://arxiv.org/abs/2211.14575v2
- Date: Thu, 24 Aug 2023 19:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 18:00:03.458570
- Title: Efficient Video Prediction via Sparsely Conditioned Flow Matching
- Title(参考訳): スパース条件付きフローマッチングによる効率的なビデオ予測
- Authors: Aram Davtyan, Sepehr Sameni, Paolo Favaro
- Abstract要約: 本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
- 参考スコア(独自算出の注目度): 24.32740918613266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel generative model for video prediction based on latent
flow matching, an efficient alternative to diffusion-based models. In contrast
to prior work, we keep the high costs of modeling the past during training and
inference at bay by conditioning only on a small random set of past frames at
each integration step of the image generation process. Moreover, to enable the
generation of high-resolution videos and to speed up the training, we work in
the latent space of a pretrained VQGAN. Finally, we propose to approximate the
initial condition of the flow ODE with the previous noisy frame. This allows to
reduce the number of integration steps and hence, speed up the sampling at
inference time. We call our model Random frame conditioned flow Integration for
VidEo pRediction, or, in short, RIVER. We show that RIVER achieves superior or
on par performance compared to prior work on common video prediction
benchmarks, while requiring an order of magnitude fewer computational
resources.
- Abstract(参考訳): 本稿では,拡散モデルに対する効率的な代替手段である潜時流マッチングに基づく映像予測のための新しい生成モデルを提案する。
従来の作業とは対照的に、画像生成プロセスの各統合ステップにおいて、過去のフレームの小さなランダムなセットだけを条件にすることで、トレーニング中の過去のモデリングやベイでの推論のコストを高く保ちます。
さらに,高解像度ビデオの生成とトレーニングの高速化を目的として,事前学習VQGANの潜時空間で作業を行う。
最後に,従来のノイズフレームを用いた流れodeの初期条件を近似する。
これにより、統合ステップの数を削減し、推論時にサンプリングを高速化できる。
ビデオ予測のためのモデルランダムフレーム条件付きフロー統合、あるいは、要するにriverと呼んでいます。
RIVERは、従来の一般的なビデオ予測ベンチマークよりも、桁違いに少ない計算資源を必要とするが、性能が優れていることを示す。
関連論文リスト
- Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Learning from One Continuous Video Stream [70.88879725963575]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。