論文の概要: Simple Video Generation using Neural ODEs
- arxiv url: http://arxiv.org/abs/2109.03292v1
- Date: Tue, 7 Sep 2021 19:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:54:59.855220
- Title: Simple Video Generation using Neural ODEs
- Title(参考訳): ニューラルodeを用いた簡易映像生成
- Authors: David Kanaa and Vikram Voleti and Samira Ebrahimi Kahou and
Christopher Pal
- Abstract要約: 我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 9.303957136142293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite having been studied to a great extent, the task of conditional
generation of sequences of frames, or videos, remains extremely challenging. It
is a common belief that a key step towards solving this task resides in
modelling accurately both spatial and temporal information in video signals. A
promising direction to do so has been to learn latent variable models that
predict the future in latent space and project back to pixels, as suggested in
recent literature. Following this line of work and building on top of a family
of models introduced in prior work, Neural ODE, we investigate an approach that
models time-continuous dynamics over a continuous latent space with a
differential equation with respect to time. The intuition behind this approach
is that these trajectories in latent space could then be extrapolated to
generate video frames beyond the time steps for which the model is trained. We
show that our approach yields promising results in the task of future frame
prediction on the Moving MNIST dataset with 1 and 2 digits.
- Abstract(参考訳): かなり研究されてきたが、フレームのシーケンスやビデオの条件付き生成という課題は依然として極めて困難である。
この課題を解決するための重要なステップは、映像信号における空間情報と時間情報の両方を正確にモデル化することにある、という共通の信念である。
期待できる方向性は、最近の文献で示唆されているように、潜在空間の将来を予測し、ピクセルに投影する潜在変数モデルを学ぶことである。
先行研究であるNeural ODEで導入されたモデルの族の上に構築されたこの一連の研究の後、時間に関する微分方程式を持つ連続潜在空間上の時間連続力学をモデル化するアプローチについて検討する。
このアプローチの背景にある直感は、潜在空間におけるこれらの軌跡を外挿して、モデルが訓練される時間段階を超えてビデオフレームを生成することである。
提案手法は,1桁と2桁の移動mnistデータセットにおける将来のフレーム予測のタスクに有望な結果をもたらすことを示す。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Enhancing Spatiotemporal Prediction Model using Modular Design and
Beyond [2.323220706791067]
時間と空間の両方でシーケンスを予測することは困難である。
主流の方法は、同時に時間構造と空間構造をモデル化することである。
配列モデルを空間エンコーダデコーダと予測器の2つのモジュールに組み込むモジュール設計を提案する。
論文 参考訳(メタデータ) (2022-10-04T10:09:35Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Stochastic Latent Residual Video Prediction [0.0]
本稿では,残差更新規則により動的に潜在空間に支配される新しい時間モデルを提案する。
ビデオのダイナミックスを自然にモデル化し、よりシンプルで解釈しやすく、潜在的なモデルによって、挑戦的なデータセットに関する最先端の手法を上回ります。
論文 参考訳(メタデータ) (2020-02-21T10:44:01Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。