論文の概要: Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2103.16341v1
- Date: Tue, 30 Mar 2021 13:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:54:27.861944
- Title: Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction
- Title(参考訳): 効率的なロバスト4次元再構成のための時空間記述子からの並列距離対応学習
- Authors: Jiapeng Tang, Dan Xu, Kui Jia, Lei Zhang
- Abstract要約: 本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
- 参考スコア(独自算出の注目度): 43.60322886598972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the task of 4D shape reconstruction from a sequence of
point clouds. Despite the recent success achieved by extending deep implicit
representations into 4D space, it is still a great challenge in two respects,
i.e. how to design a flexible framework for learning robust spatio-temporal
shape representations from 4D point clouds, and develop an efficient mechanism
for capturing shape dynamics. In this work, we present a novel pipeline to
learn a temporal evolution of the 3D human shape through spatially continuous
transformation functions among cross-frame occupancy fields. The key idea is to
parallelly establish the dense correspondence between predicted occupancy
fields at different time steps via explicitly learning continuous displacement
vector fields from robust spatio-temporal shape representations. Extensive
comparisons against previous state-of-the-arts show the superior accuracy of
our approach for 4D human reconstruction in the problems of 4D shape
auto-encoding and completion, and a much faster network inference with about 8
times speedup demonstrates the significant efficiency of our approach. The
trained models and implementation code are available at
https://github.com/tangjiapeng/LPDC-Net.
- Abstract(参考訳): 本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
深い暗黙表現を4d空間に拡張することで、近年の成功にもかかわらず、2つの点で大きな課題である。
4次元点雲から頑健な時空間形状表現を学習するための柔軟なフレームワークの設計と、形状ダイナミクスを捉えるための効率的なメカニズムの開発。
本研究では,クロスフレーム占有領域間の空間連続的変換関数を通して3次元人体形状の時間変化を学ぶための新しいパイプラインを提案する。
鍵となる考え方は、頑健な時空間形状表現から連続変位ベクトル場を明示的に学習することで、予測占有場間の異なる時間ステップでの密接な対応を並列に確立することである。
従来の最先端技術との比較では、4次元形状の自動エンコーディングと補完の問題において、我々のアプローチの精度が優れており、ネットワーク推論の高速化が約8倍の速さで実現されている。
トレーニングされたモデルと実装コードはhttps://github.com/tangjiapeng/LPDC-Netで公開されている。
関連論文リスト
- Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction [12.111389926333592]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度化されたガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,実時間トレーニング速度の20%向上,表現品質の向上,リアルタイムレンダリング能力の向上を実証する。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - RFNet-4D++: Joint Object Reconstruction and Flow Estimation from 4D
Point Clouds with Cross-Attention Spatio-Temporal Features [32.35341041093946]
RFNet-4D++と呼ばれる新しいネットワークアーキテクチャを提案する。
提案手法は,既存手法よりも高速で,フロー推定とオブジェクト再構成の両面での最先端性能を実現している。
論文 参考訳(メタデータ) (2022-03-30T17:18:11Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。