論文の概要: Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images
- arxiv url: http://arxiv.org/abs/2208.09463v1
- Date: Fri, 19 Aug 2022 17:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:18:08.035355
- Title: Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images
- Title(参考訳): 多平面画像を用いた3次元物体運動推定による動的シーンの時間ビュー合成
- Authors: Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan
- Abstract要約: 本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
- 参考スコア(独自算出の注目度): 8.185918509343816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of graphically rendering high frame-rate videos on low compute
devices can be addressed through periodic prediction of future frames to
enhance the user experience in virtual reality applications. This is studied
through the problem of temporal view synthesis (TVS), where the goal is to
predict the next frames of a video given the previous frames and the head poses
of the previous and the next frames. In this work, we consider the TVS of
dynamic scenes in which both the user and objects are moving. We design a
framework that decouples the motion into user and object motion to effectively
use the available user motion while predicting the next frames. We predict the
motion of objects by isolating and estimating the 3D object motion in the past
frames and then extrapolating it. We employ multi-plane images (MPI) as a 3D
representation of the scenes and model the object motion as the 3D displacement
between the corresponding points in the MPI representation. In order to handle
the sparsity in MPIs while estimating the motion, we incorporate partial
convolutions and masked correlation layers to estimate corresponding points.
The predicted object motion is then integrated with the given user or camera
motion to generate the next frame. Using a disocclusion infilling module, we
synthesize the regions uncovered due to the camera and object motion. We
develop a new synthetic dataset for TVS of dynamic scenes consisting of 800
videos at full HD resolution. We show through experiments on our dataset and
the MPI Sintel dataset that our model outperforms all the competing methods in
the literature.
- Abstract(参考訳): 低計算デバイス上で高フレームレートビデオをグラフィカルにレンダリングするという課題は、仮想現実アプリケーションにおけるユーザエクスペリエンスを向上させるために、将来のフレームを定期的に予測することで解決できる。
これは、前フレームと前フレームと後フレームの頭部ポーズからビデオの次のフレームを予測することを目的とした、時間的ビュー合成(tvs)の問題を通して研究される。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
動作をユーザとオブジェクトに分離し、次のフレームを予測しながら使用可能なユーザの動きを効果的に活用するフレームワークを設計する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
マルチプレーン画像(MPI)をシーンの3次元表現として使用し、MPI表現の対応する点間の3次元変位としてオブジェクトの動きをモデル化する。
動きを推定しながらmpisのスパーシティを扱うために,部分畳み込みとマスキング相関層を組み込んで対応する点を推定する。
予測された物体の動きは、所定のユーザまたはカメラの動きと統合され、次のフレームを生成する。
分割インフィルディングモジュールを用いて,カメラと物体の動きによって検出された領域を合成する。
フルHD解像度で800本のビデオからなる動的シーンのTVSのための新しい合成データセットを開発した。
我々は、我々のデータセットとMPIシンテルデータセットの実験を通して、我々のモデルは文学における競合するすべての手法より優れていることを示す。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Unsupervised Video Prediction from a Single Frame by Estimating 3D
Dynamic Scene Structure [42.3091008598491]
まず,移動物体のセグメンテーションを含むシーンの潜伏3次元構造を推定するモデルを開発する。
そして、オブジェクトとカメラのダイナミクスをシミュレートし、その結果のビューをレンダリングすることで、将来のフレームを予測する。
自然ビデオの2つの挑戦的なデータセットの実験により、我々のモデルは単一のフレームから3次元構造と動きのセグメンテーションを推定できることを示した。
論文 参考訳(メタデータ) (2021-06-16T18:00:12Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space
Multi-Person Video Motion Capture in the Wild [3.0015034534260665]
マルチカメラの精度と滑らかさを考慮したマーカーレスモーションキャプチャ手法を提案する。
提案手法は,各人物の3Dポーズを予測し,マルチカメラ画像のバウンディングボックスを決定する。
提案手法を,様々なデータセットと実スポーツフィールドを用いて評価した。
論文 参考訳(メタデータ) (2020-01-16T02:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。