論文の概要: Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape
Reconstruction and Tracking
- arxiv url: http://arxiv.org/abs/2401.06614v1
- Date: Fri, 12 Jan 2024 15:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:07:24.827298
- Title: Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape
Reconstruction and Tracking
- Title(参考訳): Motion2VecSets:非剛性形状再構成と追跡のための4次元遅延ベクトル集合拡散
- Authors: Wei Cao, Chang Luo, Biao Zhang, Matthias Nie{\ss}ner, Jiapeng Tang
- Abstract要約: Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在子ではなく、潜在子ベクトル集合で4Dダイナミクスをパラメータ化する。
より時間的コヒーレントなオブジェクト追跡のために、変形潜在集合を同期的に識別し、複数のフレーム間で情報を交換する。
- 参考スコア(独自算出の注目度): 13.250523514249176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Motion2VecSets, a 4D diffusion model for dynamic surface
reconstruction from point cloud sequences. While existing state-of-the-art
methods have demonstrated success in reconstructing non-rigid objects using
neural field representations, conventional feed-forward networks encounter
challenges with ambiguous observations from noisy, partial, or sparse point
clouds. To address these challenges, we introduce a diffusion model that
explicitly learns the shape and motion distribution of non-rigid objects
through an iterative denoising process of compressed latent representations.
The diffusion-based prior enables more plausible and probabilistic
reconstructions when handling ambiguous inputs. We parameterize 4D dynamics
with latent vector sets instead of using a global latent. This novel 4D
representation allows us to learn local surface shape and deformation patterns,
leading to more accurate non-linear motion capture and significantly improving
generalizability to unseen motions and identities. For more temporal-coherent
object tracking, we synchronously denoise deformation latent sets and exchange
information across multiple frames. To avoid the computational overhead, we
design an interleaved space and time attention block to alternately aggregate
deformation latents along spatial and temporal domains. Extensive comparisons
against the state-of-the-art methods demonstrate the superiority of our
Motion2VecSets in 4D reconstruction from various imperfect observations,
notably achieving a 19% improvement in Intersection over Union (IoU) compared
to CaDex for reconstructing unseen individuals from sparse point clouds on the
DeformingThings4D-Animals dataset. More detailed information can be found at
https://vveicao.github.io/projects/Motion2VecSets/.
- Abstract(参考訳): motion2vecsetsは,点雲列からの動的表面再構成のための4次元拡散モデルである。
既存の最先端の手法では、ニューラルフィールド表現を用いた非剛性物体の再構成に成功したが、従来のフィードフォワードネットワークでは、ノイズ、部分的、あるいはスパースポイントの雲からの曖昧な観測で課題に遭遇している。
これらの課題に対処するために,非剛性物体の形状と運動分布を,圧縮潜在表現の反復的消音過程を通じて明示的に学習する拡散モデルを提案する。
拡散に基づく事前処理は、曖昧な入力を扱う場合により妥当で確率的な再構築を可能にする。
グローバル潜時ではなく、潜在ベクトル集合を用いて4次元ダイナミクスをパラメータ化する。
この新たな4次元表現は,局所的な表面形状と変形パターンを学習し,より高精度な非線形運動キャプチャを可能にし,非知覚運動と同一性に対する一般化性を大幅に向上させる。
より時間的コヒーレントなオブジェクト追跡のために、変形潜時セットを同期的にデノベートし、複数のフレーム間で情報を交換する。
計算オーバーヘッドを回避するため,空間領域と時間領域に沿った変形遅延を交互に集約するインターリーブ空間と時間注意ブロックを設計する。
最先端の手法との広範な比較により、不完全な観測から4次元の再構成におけるmotion2vecsetの優位性が示され、特にiou(intersection over union)が19%向上し、deformingthings4d-animalsデータセット上の不審な個人を疎点の雲から再構築するcadexと比較された。
詳細はhttps://vveicao.github.io/projects/Motion2VecSets/で確認できる。
関連論文リスト
- Dynamic 3D Point Cloud Sequences as 2D Videos [87.39667425671821]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [61.16257692011714]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - Multi-frame sequence generator of 4D human body motion [0.0]
本稿では,翻訳と回転を含むグローバルな移動をエンコードする自動エンコーダに基づく生成フレームワークと,単一遅延空間ベクトルとしての多フレーム時間運動を提案する。
本研究は,低誤差境界内でのヒト形態素の4次元配列の再構成能力について検証した。
また,最初の人間のフレームから将来のフレームの4次元動作予測を行う手法の利点についても述べる。
論文 参考訳(メタデータ) (2021-06-07T13:56:46Z) - 4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface [7.637832293935966]
観測されていないジオメトリの非剛体運動を推定する新しいデータ駆動アプローチである4DCompleteを紹介します。
ネットワークトレーニングのために,DeformingThings4Dという大規模合成データセットを構築した。
論文 参考訳(メタデータ) (2021-05-05T07:39:12Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations [72.4716073597902]
本研究では,動的あるいは動いた物体の標準点クラウド表現を学習する手法を提案する。
本稿では, 形状再構成, カメラポーズ推定, 連続時間列再構成, 対応推定など, 様々な応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-08-06T17:58:48Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。