論文の概要: STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction
- arxiv url: http://arxiv.org/abs/2312.06486v1
- Date: Mon, 11 Dec 2023 16:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:09:09.979459
- Title: STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction
- Title(参考訳): STDiff:連続確率的ビデオ予測のための時空間拡散
- Authors: Xi Ye, Guillaume-Alexandre Bilodeau
- Abstract要約: 時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
- 参考スコア(独自算出の注目度): 20.701792842768747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting future frames of a video is challenging because it is difficult to
learn the uncertainty of the underlying factors influencing their contents. In
this paper, we propose a novel video prediction model, which has
infinite-dimensional latent variables over the spatio-temporal domain.
Specifically, we first decompose the video motion and content information, then
take a neural stochastic differential equation to predict the temporal motion
information, and finally, an image diffusion model autoregressively generates
the video frame by conditioning on the predicted motion feature and the
previous frame. The better expressiveness and stronger stochasticity learning
capability of our model lead to state-of-the-art video prediction performances.
As well, our model is able to achieve temporal continuous prediction, i.e.,
predicting in an unsupervised way the future video frames with an arbitrarily
high frame rate. Our code is available at
\url{https://github.com/XiYe20/STDiffProject}.
- Abstract(参考訳): ビデオの今後のフレーム予測は,その内容に影響を及ぼす要因の不確実性を知ることが難しいため,難しい。
本稿では,時空間上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
具体的には、まず映像の動きと内容情報を分解し、次にニューラル確率微分方程式を用いて時間的動き情報を予測し、最後に、予測された動き特徴と前フレームを条件に画像拡散モデルが自動回帰的に映像フレームを生成する。
我々のモデルの表現性の向上と確率学習能力の強化により、最先端のビデオ予測性能が向上する。
同様に、我々のモデルは、時間的連続予測、すなわち将来のビデオフレームを任意に高いフレームレートで教師なしの方法で予測することができる。
私たちのコードは \url{https://github.com/XiYe20/STDiffProject} で利用可能です。
関連論文リスト
- State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文 参考訳(メタデータ) (2024-04-17T17:19:48Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - SLAMP: Stochastic Latent Appearance and Motion Prediction [14.257878210585014]
モーションはビデオ予測の重要なキューであり、ビデオコンテンツを静的なコンポーネントと動的コンポーネントに分離することでしばしば利用される。
動きを利用する以前の研究のほとんどは決定論的だが、未来の本質的な不確実性をモデル化できる方法がある。
本稿では,動きの履歴に基づいて未来を予測することによって,映像の出現と動きを推論する。
論文 参考訳(メタデータ) (2021-08-05T17:52:18Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。