論文の概要: Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame
Prediction
- arxiv url: http://arxiv.org/abs/2110.14392v1
- Date: Wed, 27 Oct 2021 12:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:23:04.480525
- Title: Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame
Prediction
- Title(参考訳): Taylor Swift: Swiftの将来フレーム予測のためのテイラー駆動の時間モデリング
- Authors: Mohammad Saber Pourheydari, Mohsen Fayyaz, Emad Bahrami, Mehdi
Noroozi, Juergen Gall
- Abstract要約: 与えられた入力ビデオに対してTaylor系列の高次項を推定することを学ぶ新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介する。
TayloSwiftNetは、1つのフォワードパスで任意の将来のフレームを素早く予測し、オンザフライで時間分解能を変更することができる。
- 参考スコア(独自算出の注目度): 22.57791389884491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recurrent neural networks (RNNs) demonstrate outstanding capabilities
in future video frame prediction, they model dynamics in a discrete time space
and sequentially go through all frames until the desired future temporal step
is reached. RNNs are therefore prone to accumulate the error as the number of
future frames increases. In contrast, partial differential equations (PDEs)
model physical phenomena like dynamics in continuous time space, however,
current PDE-based approaches discretize the PDEs using e.g., the forward Euler
method. In this work, we therefore propose to approximate the motion in a video
by a continuous function using the Taylor series. To this end, we introduce
TayloSwiftNet, a novel convolutional neural network that learns to estimate the
higher order terms of the Taylor series for a given input video. TayloSwiftNet
can swiftly predict any desired future frame in just one forward pass and
change the temporal resolution on-the-fly. The experimental results on various
datasets demonstrate the superiority of our model.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は、将来のビデオフレーム予測において際立った能力を示す一方で、離散時間空間におけるダイナミクスをモデル化し、将来の時間ステップに到達するまで、すべてのフレームを順次通過させる。
したがって、RNNは将来のフレーム数が増加するにつれてエラーを蓄積する傾向にある。
対照的に、偏微分方程式(PDE)は連続時間空間の力学のような物理現象をモデル化するが、現在のPDEベースのアプローチでは、例えばフォワード・オイラー法を用いてPDEを離散化している。
そこで本研究では,テイラー級数を用いた連続関数による映像中の動きを近似する手法を提案する。
この目的のために,与えられた入力ビデオに対してTaylor系列の高次項を推定することを学ぶ,新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介した。
TayloSwiftNetは、1つのフォワードパスで任意の将来のフレームを素早く予測し、オンザフライで時間分解能を変更することができる。
様々なデータセットにおける実験結果から,モデルの優越性が示された。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs [65.18780403244178]
動的グラフニューラル正規微分方程式(MTGODE)を用いた多変量時系列予測連続モデルを提案する。
具体的には、まず、時間進化するノードの特徴と未知のグラフ構造を持つ動的グラフに多変量時系列を抽象化する。
そして、欠落したグラフトポロジを補完し、空間的および時間的メッセージパッシングを統一するために、ニューラルODEを設計、解決する。
論文 参考訳(メタデータ) (2022-02-17T02:17:31Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - Taylor saves for later: disentanglement for video prediction using
Taylor representation [5.658571172210811]
ビデオフレームにおけるTaylor特徴と残像をアンタングル化する2分岐Seq-to-seqディープモデルを提案する。
TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。
MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。
論文 参考訳(メタデータ) (2021-05-24T01:59:21Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。