論文の概要: Unsupervised Video Prediction from a Single Frame by Estimating 3D
Dynamic Scene Structure
- arxiv url: http://arxiv.org/abs/2106.09051v1
- Date: Wed, 16 Jun 2021 18:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:15:21.306748
- Title: Unsupervised Video Prediction from a Single Frame by Estimating 3D
Dynamic Scene Structure
- Title(参考訳): 3次元動的シーン構造推定による単一フレームからの教師なし映像予測
- Authors: Paul Henderson, Christoph H. Lampert, Bernd Bickel
- Abstract要約: まず,移動物体のセグメンテーションを含むシーンの潜伏3次元構造を推定するモデルを開発する。
そして、オブジェクトとカメラのダイナミクスをシミュレートし、その結果のビューをレンダリングすることで、将来のフレームを予測する。
自然ビデオの2つの挑戦的なデータセットの実験により、我々のモデルは単一のフレームから3次元構造と動きのセグメンテーションを推定できることを示した。
- 参考スコア(独自算出の注目度): 42.3091008598491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal in this work is to generate realistic videos given just one initial
frame as input. Existing unsupervised approaches to this task do not consider
the fact that a video typically shows a 3D environment, and that this should
remain coherent from frame to frame even as the camera and objects move. We
address this by developing a model that first estimates the latent 3D structure
of the scene, including the segmentation of any moving objects. It then
predicts future frames by simulating the object and camera dynamics, and
rendering the resulting views. Importantly, it is trained end-to-end using only
the unsupervised objective of predicting future frames, without any 3D
information nor segmentation annotations. Experiments on two challenging
datasets of natural videos show that our model can estimate 3D structure and
motion segmentation from a single frame, and hence generate plausible and
varied predictions.
- Abstract(参考訳): この研究の目標は、最初の1フレームだけを入力として、現実的なビデオを生成することです。
既存の教師なしのアプローチでは、ビデオが通常3d環境を示しており、カメラとオブジェクトが移動してもフレーム間でコヒーレントのままであるという事実は考慮されていない。
まず,移動物体のセグメンテーションを含む,シーンの潜伏3次元構造を推定するモデルを開発することで,この問題に対処する。
そして、オブジェクトとカメラのダイナミクスをシミュレートし、結果のビューをレンダリングすることで、将来のフレームを予測する。
重要なのは、3d情報やセグメンテーションアノテーションなしで、将来のフレームを予測するという教師なしの目的のみを使用してエンドツーエンドでトレーニングされることだ。
自然映像の2つの難解なデータセットを実験した結果,1つのフレームから3次元構造と動きのセグメンテーションを推定できることがわかった。
関連論文リスト
- Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images [8.185918509343816]
本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
論文 参考訳(メタデータ) (2022-08-19T17:40:13Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。