論文の概要: Mesh4D: 4D Mesh Reconstruction and Tracking from Monocular Video
- arxiv url: http://arxiv.org/abs/2601.05251v1
- Date: Thu, 08 Jan 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.359333
- Title: Mesh4D: 4D Mesh Reconstruction and Tracking from Monocular Video
- Title(参考訳): Mesh4D:モノクロビデオからの4Dメッシュの再構築と追跡
- Authors: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi,
- Abstract要約: Mesh4Dはモノクル4Dメッシュ再構成のためのフィードフォワードモデルである。
私たちの重要な貢献は、単一のパスでアニメーションシーケンス全体をエンコードするコンパクトな潜在空間です。
提案手法は, 3次元形状と変形を再現する上で, 従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 81.44600627066747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Mesh4D, a feed-forward model for monocular 4D mesh reconstruction. Given a monocular video of a dynamic object, our model reconstructs the object's complete 3D shape and motion, represented as a deformation field. Our key contribution is a compact latent space that encodes the entire animation sequence in a single pass. This latent space is learned by an autoencoder that, during training, is guided by the skeletal structure of the training objects, providing strong priors on plausible deformations. Crucially, skeletal information is not required at inference time. The encoder employs spatio-temporal attention, yielding a more stable representation of the object's overall deformation. Building on this representation, we train a latent diffusion model that, conditioned on the input video and the mesh reconstructed from the first frame, predicts the full animation in one shot. We evaluate Mesh4D on reconstruction and novel view synthesis benchmarks, outperforming prior methods in recovering accurate 3D shape and deformation.
- Abstract(参考訳): 単分子4Dメッシュ再構成のためのフィードフォワードモデルであるMesh4Dを提案する。
動的物体のモノクロ映像が与えられると、変形場として表現された物体の完全な3次元形状と動きを再構成する。
私たちの重要な貢献は、単一のパスでアニメーションシーケンス全体をエンコードするコンパクトな潜在空間です。
この潜伏空間はオートエンコーダによって学習され、訓練中はトレーニング対象の骨格構造によってガイドされる。
重要なことは、推論時に骨格情報は不要である。
エンコーダは時空間の注意を使い、オブジェクト全体の変形をより安定的に表現する。
この表現に基づいて、入力ビデオと1フレームから再構成されたメッシュに条件付けされた潜在拡散モデルを訓練し、全アニメーションを1ショットで予測する。
提案手法は, 3次元形状と変形を再現する上で, 従来の手法よりも優れていた。
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。