論文の概要: DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation
- arxiv url: http://arxiv.org/abs/2410.06756v1
- Date: Wed, 9 Oct 2024 10:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:50:25.900018
- Title: DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation
- Title(参考訳): DreamMesh4D:Sparse-Controlled Gaussian-Mesh Hybrid Representationによるビデオから4D生成
- Authors: Zhiqi Li, Yiming Chen, Peidong Liu,
- Abstract要約: 本稿では,メッシュ表現と幾何スキン技術を組み合わせた新しいフレームワークDreamMesh4Dを紹介し,モノクロビデオから高品質な4Dオブジェクトを生成する。
我々の手法は現代のグラフィックパイプラインと互換性があり、3Dゲームや映画産業におけるその可能性を示している。
- 参考スコア(独自算出の注目度): 10.250715657201363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 2D/3D generative techniques have facilitated the generation of dynamic 3D objects from monocular videos. Previous methods mainly rely on the implicit neural radiance fields (NeRF) or explicit Gaussian Splatting as the underlying representation, and struggle to achieve satisfactory spatial-temporal consistency and surface appearance. Drawing inspiration from modern 3D animation pipelines, we introduce DreamMesh4D, a novel framework combining mesh representation with geometric skinning technique to generate high-quality 4D object from a monocular video. Instead of utilizing classical texture map for appearance, we bind Gaussian splats to triangle face of mesh for differentiable optimization of both the texture and mesh vertices. In particular, DreamMesh4D begins with a coarse mesh obtained through an image-to-3D generation procedure. Sparse points are then uniformly sampled across the mesh surface, and are used to build a deformation graph to drive the motion of the 3D object for the sake of computational efficiency and providing additional constraint. For each step, transformations of sparse control points are predicted using a deformation network, and the mesh vertices as well as the surface Gaussians are deformed via a novel geometric skinning algorithm, which is a hybrid approach combining LBS (linear blending skinning) and DQS (dual-quaternion skinning), mitigating drawbacks associated with both approaches. The static surface Gaussians and mesh vertices as well as the deformation network are learned via reference view photometric loss, score distillation loss as well as other regularizers in a two-stage manner. Extensive experiments demonstrate superior performance of our method. Furthermore, our method is compatible with modern graphic pipelines, showcasing its potential in the 3D gaming and film industry.
- Abstract(参考訳): 2D/3D生成技術の最近の進歩は、モノクロビデオから動的3Dオブジェクトを生成するのに役立っている。
従来の手法は主に、暗黙の神経放射場(NeRF)や露骨なガウススプラッティング(英語版)を基礎的な表現として用いており、良好な空間的時間的一貫性と表面的な外観を達成するのに苦労している。
最新の3Dアニメーションパイプラインからインスピレーションを得たDreamMesh4Dは、メッシュ表現と幾何学スキン技術を組み合わせた新しいフレームワークで、モノクロビデオから高品質な4Dオブジェクトを生成する。
従来のテクスチャマップを外観に利用する代わりに,メッシュの三角形面にガウススプレートを結合して,テクスチャとメッシュの頂点の微分可能な最適化を行う。
特にDreamMesh4Dは、画像から3D生成手順によって得られた粗いメッシュから始まる。
スパースポイントはメッシュ表面全体に均一にサンプリングされ、3Dオブジェクトの運動を計算効率のために駆動し、さらなる制約を与えるための変形グラフを構築するために使用される。
各ステップにおいて、変形ネットワークを用いてスパース制御点の変換を予測し、両アプローチの欠点を緩和するLBS(線形ブレンディングスキン)とDQS(二重クアテニオンスキンニング)を組み合わせたハイブリッドアプローチである新しい幾何スキンニングアルゴリズムにより、メッシュ頂点と表面ガウシアンを変形させる。
静的表面ガウスおよびメッシュ頂点および変形ネットワークは、基準視光度損失、点数蒸留損失、および他の正則化器を2段階的に学習する。
大規模な実験により,本手法の優れた性能が示された。
さらに,本手法は現代のグラフィックパイプラインと互換性があり,3Dゲーム・フィルム産業におけるその可能性を示している。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner [34.78919665494048]
CraftsManは、非常に多様な形状、通常のメッシュトポロジ、詳細な表面を持つ高忠実な3Dジオメトリを生成することができる。
本手法は,従来の方法に比べて高品質な3Dアセットの製作に有効である。
論文 参考訳(メタデータ) (2024-05-23T18:30:12Z) - Direct Learning of Mesh and Appearance via 3D Gaussian Splatting [3.4899193297791054]
本稿では、3DGSを明示的な幾何学的表現、すなわちメッシュに組み込んだ学習可能なシーンモデルを提案する。
我々のモデルはメッシュと外観をエンドツーエンドで学習し、メッシュ面に3Dガウスアンを結合し、3DGSの微分レンダリングを行い、測光監督を得る。
論文 参考訳(メタデータ) (2024-05-11T07:56:19Z) - Gaussian Opacity Fields: Efficient Adaptive Surface Reconstruction in Unbounded Scenes [50.92217884840301]
Gaussian Opacity Fields (GOF)は、シーンにおける効率的で高品質で適応的な表面再構成のための新しいアプローチである。
GOFは3Dガウスのレイトレーシングに基づくボリュームレンダリングに由来する。
GOFは、表面再構成と新しいビュー合成において、既存の3DGSベースの手法を超越している。
論文 参考訳(メタデータ) (2024-04-16T17:57:19Z) - 2D Gaussian Splatting for Geometrically Accurate Radiance Fields [50.056790168812114]
3D Gaussian Splatting (3DGS)は近年,高画質の新規ビュー合成と高速レンダリングを実現し,放射界再構成に革命をもたらした。
多視点画像から幾何学的精度の高い放射場をモデル化・再構成するための新しいアプローチである2DGS(2D Gaussian Splatting)を提案する。
競合する外観品質、高速トレーニング速度、リアルタイムレンダリングを維持しつつ、ノイズフリーかつ詳細な幾何学的再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:21:24Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - Bridging 3D Gaussian and Mesh for Freeview Video Rendering [57.21847030980905]
GauMeshはダイナミックシーンのモデリングとレンダリングのために3D GaussianとMeshをブリッジする。
提案手法は, 動的シーンの異なる部分を表現するために, プリミティブの適切なタイプに適応することを示す。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D
Shape Synthesis [90.26556260531707]
DMTetは粗いボクセルのような単純なユーザーガイドを用いて高解像度の3次元形状を合成できる条件付き生成モデルである。
メッシュなどの明示的な表現を直接生成する深部3次元生成モデルとは異なり、我々のモデルは任意の位相で形状を合成することができる。
論文 参考訳(メタデータ) (2021-11-08T05:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。