論文の概要: Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video
- arxiv url: http://arxiv.org/abs/2506.07489v1
- Date: Mon, 09 Jun 2025 07:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.840187
- Title: Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video
- Title(参考訳): メッシュを駆動する:ビデオからメッシュを変形させる4D遅延拡散
- Authors: Yahao Shi, Yang Liu, Yanmin Wu, Xing Liu, Chen Zhao, Jie Luo, Bin Zhou,
- Abstract要約: DriveAnyMeshは、モノクロビデオでガイドされたメッシュを駆動する方法である。
潜在集合の列を識別する4次元拡散モデルを提案する。
ラッチセットは変分オートエンコーダを利用し、3D形状とモーション情報を同時にキャプチャする。
- 参考スコア(独自算出の注目度): 19.830248504692563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DriveAnyMesh, a method for driving mesh guided by monocular video. Current 4D generation techniques encounter challenges with modern rendering engines. Implicit methods have low rendering efficiency and are unfriendly to rasterization-based engines, while skeletal methods demand significant manual effort and lack cross-category generalization. Animating existing 3D assets, instead of creating 4D assets from scratch, demands a deep understanding of the input's 3D structure. To tackle these challenges, we present a 4D diffusion model that denoises sequences of latent sets, which are then decoded to produce mesh animations from point cloud trajectory sequences. These latent sets leverage a transformer-based variational autoencoder, simultaneously capturing 3D shape and motion information. By employing a spatiotemporal, transformer-based diffusion model, information is exchanged across multiple latent frames, enhancing the efficiency and generalization of the generated results. Our experimental results demonstrate that DriveAnyMesh can rapidly produce high-quality animations for complex motions and is compatible with modern rendering engines. This method holds potential for applications in both the gaming and filming industries.
- Abstract(参考訳): モノクロビデオでガイドされたメッシュを駆動するDriveAnyMeshを提案する。
現在の4D生成技術は、現代的なレンダリングエンジンの課題に直面している。
インプリシット法はレンダリング効率が低く、ラスタライズベースのエンジンには適さないが、骨格法ではかなりの手作業が必要であり、カテゴリ間の一般化が欠如している。
既存の3Dアセットをスクラッチから4Dアセットを作成する代わりに、入力の3D構造を深く理解する必要がある。
これらの課題に対処するために,潜在集合の列を識別する4次元拡散モデルを提案し,それをデコードして点雲軌道列からメッシュアニメーションを生成する。
これらの潜伏セットは変圧器ベースの変分オートエンコーダを利用し、3次元形状と動き情報を同時にキャプチャする。
時空間変換器に基づく拡散モデルを用いることで、情報は複数の潜在フレーム間で交換され、生成された結果の効率性と一般化が向上する。
実験の結果,DriveAnyMeshは複雑な動きに対して高速に高品質なアニメーションを作成でき,最新のレンダリングエンジンと互換性があることがわかった。
この方法は、ゲーム産業と撮影産業の両方で応用される可能性がある。
関連論文リスト
- Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。