論文の概要: Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video
- arxiv url: http://arxiv.org/abs/2506.07489v1
- Date: Mon, 09 Jun 2025 07:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.840187
- Title: Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video
- Title(参考訳): メッシュを駆動する:ビデオからメッシュを変形させる4D遅延拡散
- Authors: Yahao Shi, Yang Liu, Yanmin Wu, Xing Liu, Chen Zhao, Jie Luo, Bin Zhou,
- Abstract要約: DriveAnyMeshは、モノクロビデオでガイドされたメッシュを駆動する方法である。
潜在集合の列を識別する4次元拡散モデルを提案する。
ラッチセットは変分オートエンコーダを利用し、3D形状とモーション情報を同時にキャプチャする。
- 参考スコア(独自算出の注目度): 19.830248504692563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DriveAnyMesh, a method for driving mesh guided by monocular video. Current 4D generation techniques encounter challenges with modern rendering engines. Implicit methods have low rendering efficiency and are unfriendly to rasterization-based engines, while skeletal methods demand significant manual effort and lack cross-category generalization. Animating existing 3D assets, instead of creating 4D assets from scratch, demands a deep understanding of the input's 3D structure. To tackle these challenges, we present a 4D diffusion model that denoises sequences of latent sets, which are then decoded to produce mesh animations from point cloud trajectory sequences. These latent sets leverage a transformer-based variational autoencoder, simultaneously capturing 3D shape and motion information. By employing a spatiotemporal, transformer-based diffusion model, information is exchanged across multiple latent frames, enhancing the efficiency and generalization of the generated results. Our experimental results demonstrate that DriveAnyMesh can rapidly produce high-quality animations for complex motions and is compatible with modern rendering engines. This method holds potential for applications in both the gaming and filming industries.
- Abstract(参考訳): モノクロビデオでガイドされたメッシュを駆動するDriveAnyMeshを提案する。
現在の4D生成技術は、現代的なレンダリングエンジンの課題に直面している。
インプリシット法はレンダリング効率が低く、ラスタライズベースのエンジンには適さないが、骨格法ではかなりの手作業が必要であり、カテゴリ間の一般化が欠如している。
既存の3Dアセットをスクラッチから4Dアセットを作成する代わりに、入力の3D構造を深く理解する必要がある。
これらの課題に対処するために,潜在集合の列を識別する4次元拡散モデルを提案し,それをデコードして点雲軌道列からメッシュアニメーションを生成する。
これらの潜伏セットは変圧器ベースの変分オートエンコーダを利用し、3次元形状と動き情報を同時にキャプチャする。
時空間変換器に基づく拡散モデルを用いることで、情報は複数の潜在フレーム間で交換され、生成された結果の効率性と一般化が向上する。
実験の結果,DriveAnyMeshは複雑な動きに対して高速に高品質なアニメーションを作成でき,最新のレンダリングエンジンと互換性があることがわかった。
この方法は、ゲーム産業と撮影産業の両方で応用される可能性がある。
関連論文リスト
- Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis [31.632778145139074]
直接4次元拡散モデリングは、コストの高いデータ構築と3次元形状、外観、動きを共同で表現する高次元の性質のため、極めて困難である。
我々は,標準ガウスを直接符号化する4DMesh-to-GS Variation Field VAEと,その時間変化を3Dアニメーションデータから紹介する。
入力ビデオと標準GSで条件付き時間認識拡散変換器を訓練する。
論文 参考訳(メタデータ) (2025-07-31T17:59:51Z) - Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。