論文の概要: State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend
- arxiv url: http://arxiv.org/abs/2404.11576v1
- Date: Wed, 17 Apr 2024 17:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:06:14.615144
- Title: State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend
- Title(参考訳): 長期移動傾向を考慮した映像予測のための状態空間分解モデル
- Authors: Fei Cui, Jiaojiao Fang, Xiaojiang Wu, Zelong Lai, Mengke Yang, Menghan Jia, Guizhong Liu,
- Abstract要約: 本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
- 参考スコア(独自算出の注目度): 3.910356300831074
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic video prediction enables the consideration of uncertainty in future motion, thereby providing a better reflection of the dynamic nature of the environment. Stochastic video prediction methods based on image auto-regressive recurrent models need to feed their predictions back into the latent space. Conversely, the state-space models, which decouple frame synthesis and temporal prediction, proves to be more efficient. However, inferring long-term temporal information about motion and generalizing to dynamic scenarios under non-stationary assumptions remains an unresolved challenge. In this paper, we propose a state-space decomposition stochastic video prediction model that decomposes the overall video frame generation into deterministic appearance prediction and stochastic motion prediction. Through adaptive decomposition, the model's generalization capability to dynamic scenarios is enhanced. In the context of motion prediction, obtaining a prior on the long-term trend of future motion is crucial. Thus, in the stochastic motion prediction branch, we infer the long-term motion trend from conditional frames to guide the generation of future frames that exhibit high consistency with the conditional frames. Experimental results demonstrate that our model outperforms baselines on multiple datasets.
- Abstract(参考訳): 確率的映像予測は将来の動きの不確実性を考慮し、環境の動的性質をよりよく反映する。
画像の自動回帰リカレントモデルに基づく確率的ビデオ予測手法は,その予測を潜在空間に戻す必要がある。
逆に、フレーム合成と時間予測を分離した状態空間モデルは、より効率的であることが証明されている。
しかし、運動に関する長期的な時間的情報を推測し、非定常仮定の下で動的シナリオに一般化することは未解決の課題である。
本稿では,全体の映像フレーム生成を決定論的外観予測と確率的動き予測に分解する状態空間分解確率的映像予測モデルを提案する。
適応分解により、モデルの動的シナリオへの一般化能力が向上する。
動き予測の文脈では、将来の動きの長期的傾向に先んじることが重要である。
そこで,確率的動き予測分岐では,条件付きフレームから長期動作傾向を推定し,条件付きフレームとの整合性を示す将来のフレームの生成を導出する。
実験により,本モデルが複数のデータセットのベースラインより優れていることが示された。
関連論文リスト
- GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - SLAMP: Stochastic Latent Appearance and Motion Prediction [14.257878210585014]
モーションはビデオ予測の重要なキューであり、ビデオコンテンツを静的なコンポーネントと動的コンポーネントに分離することでしばしば利用される。
動きを利用する以前の研究のほとんどは決定論的だが、未来の本質的な不確実性をモデル化できる方法がある。
本稿では,動きの履歴に基づいて未来を予測することによって,映像の出現と動きを推論する。
論文 参考訳(メタデータ) (2021-08-05T17:52:18Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z) - Stochastic Latent Residual Video Prediction [0.0]
本稿では,残差更新規則により動的に潜在空間に支配される新しい時間モデルを提案する。
ビデオのダイナミックスを自然にモデル化し、よりシンプルで解釈しやすく、潜在的なモデルによって、挑戦的なデータセットに関する最先端の手法を上回ります。
論文 参考訳(メタデータ) (2020-02-21T10:44:01Z) - Deep Variational Luenberger-type Observer for Stochastic Video
Prediction [46.82873654555665]
本研究では,状態空間モデルの解釈可能性とディープニューラルネットワークの表現を組み合わせ,映像予測の課題について検討する。
我々のモデルは,入力映像を潜時特徴空間に変換する変分エンコーダと,潜時特徴の動的進化を捉えたルエンベルガー型オブザーバの上に構築されている。
論文 参考訳(メタデータ) (2020-02-12T06:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。