論文の概要: Stochastic Video Prediction with Structure and Motion
- arxiv url: http://arxiv.org/abs/2203.10528v1
- Date: Sun, 20 Mar 2022 11:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:35:06.396243
- Title: Stochastic Video Prediction with Structure and Motion
- Title(参考訳): 構造と動きによる確率的映像予測
- Authors: Adil Kaan Akan, Sadra Safadoust, Erkut Erdem, Aykut Erdem, Fatma
G\"uney
- Abstract要約: 本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
- 参考スコア(独自算出の注目度): 14.424465835834042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While stochastic video prediction models enable future prediction under
uncertainty, they mostly fail to model the complex dynamics of real-world
scenes. For example, they cannot provide reliable predictions for scenes with a
moving camera and independently moving foreground objects in driving scenarios.
The existing methods fail to fully capture the dynamics of the structured world
by only focusing on changes in pixels. In this paper, we assume that there is
an underlying process creating observations in a video and propose to factorize
it into static and dynamic components. We model the static part based on the
scene structure and the ego-motion of the vehicle, and the dynamic part based
on the remaining motion of the dynamic objects. By learning separate
distributions of changes in foreground and background, we can decompose the
scene into static and dynamic parts and separately model the change in each.
Our experiments demonstrate that disentangling structure and motion helps
stochastic video prediction, leading to better future predictions in complex
driving scenarios on two real-world driving datasets, KITTI and Cityscapes.
- Abstract(参考訳): 確率的ビデオ予測モデルは不確実性下で将来の予測を可能にするが、それらはほとんど現実世界のシーンの複雑なダイナミクスをモデル化しない。
例えば、動くカメラでシーンを信頼できる予測することはできず、運転シナリオにおいて前景オブジェクトを独立して移動させることはできない。
既存の手法では、ピクセルの変化のみに焦点を当てることで、構造化世界のダイナミクスを完全に捉えることができない。
本稿では,ビデオに観察を生成するプロセスが存在すると仮定し,それを静的および動的成分に分解することを提案する。
本研究では、車両のシーン構造とエゴモーションに基づいて静的な部分をモデル化し、ダイナミックな物体の残りの動きに基づいて動的部分をモデル化する。
前景と背景の変化の別々の分布を学習することにより、シーンを静的および動的に分解し、それぞれの変化を別々にモデル化することができる。
我々の実験は、切り離し構造と動きが確率的ビデオ予測に役立ち、KITTIとCityscapesの2つの実世界の運転データセットにおける複雑な運転シナリオにおける予測がより良くなることを示した。
関連論文リスト
- GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local
Spherical-BEV Perception [54.02566476357383]
本研究では,動的環境運動合成フレームワーク(DEMOS)を提案する。
次に、最終動作合成のために潜在動作を動的に更新する。
その結果,本手法は従来の手法よりも優れ,動的環境の処理性能も優れていた。
論文 参考訳(メタデータ) (2024-03-04T05:38:16Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - SLAMP: Stochastic Latent Appearance and Motion Prediction [14.257878210585014]
モーションはビデオ予測の重要なキューであり、ビデオコンテンツを静的なコンポーネントと動的コンポーネントに分離することでしばしば利用される。
動きを利用する以前の研究のほとんどは決定論的だが、未来の本質的な不確実性をモデル化できる方法がある。
本稿では,動きの履歴に基づいて未来を予測することによって,映像の出現と動きを推論する。
論文 参考訳(メタデータ) (2021-08-05T17:52:18Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z) - Unsupervised Video Prediction from a Single Frame by Estimating 3D
Dynamic Scene Structure [42.3091008598491]
まず,移動物体のセグメンテーションを含むシーンの潜伏3次元構造を推定するモデルを開発する。
そして、オブジェクトとカメラのダイナミクスをシミュレートし、その結果のビューをレンダリングすることで、将来のフレームを予測する。
自然ビデオの2つの挑戦的なデータセットの実験により、我々のモデルは単一のフレームから3次元構造と動きのセグメンテーションを推定できることを示した。
論文 参考訳(メタデータ) (2021-06-16T18:00:12Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。