論文の概要: SLAMP: Stochastic Latent Appearance and Motion Prediction
- arxiv url: http://arxiv.org/abs/2108.02760v1
- Date: Thu, 5 Aug 2021 17:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 15:59:14.727725
- Title: SLAMP: Stochastic Latent Appearance and Motion Prediction
- Title(参考訳): SLAMP:確率的潜在出現と動き予測
- Authors: Adil Kaan Akan, Erkut Erdem, Aykut Erdem, Fatma G\"uney
- Abstract要約: モーションはビデオ予測の重要なキューであり、ビデオコンテンツを静的なコンポーネントと動的コンポーネントに分離することでしばしば利用される。
動きを利用する以前の研究のほとんどは決定論的だが、未来の本質的な不確実性をモデル化できる方法がある。
本稿では,動きの履歴に基づいて未来を予測することによって,映像の出現と動きを推論する。
- 参考スコア(独自算出の注目度): 14.257878210585014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion is an important cue for video prediction and often utilized by
separating video content into static and dynamic components. Most of the
previous work utilizing motion is deterministic but there are stochastic
methods that can model the inherent uncertainty of the future. Existing
stochastic models either do not reason about motion explicitly or make limiting
assumptions about the static part. In this paper, we reason about appearance
and motion in the video stochastically by predicting the future based on the
motion history. Explicit reasoning about motion without history already reaches
the performance of current stochastic models. The motion history further
improves the results by allowing to predict consistent dynamics several frames
into the future. Our model performs comparably to the state-of-the-art models
on the generic video prediction datasets, however, significantly outperforms
them on two challenging real-world autonomous driving datasets with complex
motion and dynamic background.
- Abstract(参考訳): モーションはビデオ予測の重要な手がかりであり、ビデオコンテンツを静的および動的コンポーネントに分割することでしばしば利用される。
運動を利用する以前の仕事のほとんどは決定論的であるが、未来の本質的な不確実性をモデル化できる確率的方法がある。
既存の確率モデルは、動きを明示的に推論しないか、静的部分に関する仮定を限定する。
本稿では,映像の出現と動きを,動き履歴に基づいて未来を予測することにより確率論的に推定する。
履歴のない動きの明示的推論はすでに現在の確率モデルの性能に達している。
動き履歴は、将来に複数のフレームが一貫したダイナミクスを予測できるように、結果をさらに改善する。
しかし,本モデルは,複雑な動きと動的背景を持つ実世界の2つの自律運転データセットにおいて,その性能を大幅に上回っている。
関連論文リスト
- GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文 参考訳(メタデータ) (2024-04-17T17:19:48Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - PREF: Predictability Regularized Neural Motion Fields [68.60019434498703]
ダイナミックなシーンで3Dの動きを知ることは、多くの視覚応用にとって不可欠である。
多視点設定における全ての点の運動を推定するために神経運動場を利用する。
予測可能な動きを正規化することを提案する。
論文 参考訳(メタデータ) (2022-09-21T22:32:37Z) - Stochastic Video Prediction with Structure and Motion [14.424465835834042]
本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
論文 参考訳(メタデータ) (2022-03-20T11:29:46Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。
我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。
我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文 参考訳(メタデータ) (2020-08-25T02:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。