論文の概要: ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
- arxiv url: http://arxiv.org/abs/2601.16148v1
- Date: Thu, 22 Jan 2026 17:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.679467
- Title: ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
- Title(参考訳): ActionMesh: 時間的3D拡散によるアニメーション3Dメッシュ生成
- Authors: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier,
- Abstract要約: アクションフィードフォワードの準備が可能なアクション対応3Dモデル。
自動3Dコーダは2つの入力を持つ3Dメッシュを生成する。
2つの入力で3次元形状を抽出する。
- 参考スコア(独自算出の注目度): 32.32525061239629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.
- Abstract(参考訳): アニメーション3Dオブジェクトの生成は多くのアプリケーションの中心であるが、ほとんどの先進的な作業は、セットアップが限られていること、ランタイムが長いこと、あるいは品質が限られているため、実際には適用が難しい。
本稿では,生産可能な3Dメッシュをフィードフォワード形式で"動作中"に予測する生成モデルであるActionMeshを紹介する。
初期のビデオモデルからインスピレーションを得て、私たちの重要な洞察は、既存の3D拡散モデルを時間軸を含むように修正することである。
具体的には、まず3次元拡散段階に適応し、時間変化と独立な3次元形状を表す同期潜水器列を生成する。
第2に、独立形状の列を予め定義された参照形状の対応する変形に変換する時間的3次元オートエンコーダを設計し、アニメーションを作成する。
これらの2つのコンポーネントを組み合わせることで、ActionMeshはモノクロビデオ、テキスト記述、さらにはアニメーションを記述するテキストプロンプトを備えた3Dメッシュなど、さまざまな入力からアニメーション3Dメッシュを生成する。
また,従来の手法に比べ,提案手法は高速で,かつ厳密でトポロジに一貫性のある結果が得られるため,テキスト作成や再ターゲティングといった迅速な反復やシームレスなアプリケーションを実現することができる。
我々は,標準的なビデオから4Dのベンチマーク(Consistent4D, Objaverse)で評価し,幾何学的精度と時間的一貫性の両面から最先端のパフォーマンスを報告し,我々のモデルが前例のない速度と品質でアニメーション3Dメッシュを配信できることを実証した。
関連論文リスト
- Instant Expressive Gaussian Head Avatar via 3D-Aware Expression Distillation [46.27695095774081]
2次元拡散法は、しばしば3次元の一貫性と速度を損なう。
3D対応の顔アニメーションフィードフォワード法は、3D一貫性を確保し、より高速な推論速度を実現する。
我々の手法は107.31 FPSでアニメーションとポーズの制御を行い、最先端のアニメーションに匹敵する品質を実現している。
論文 参考訳(メタデータ) (2025-12-18T18:53:28Z) - 4-Doodle: Text to 3D Sketches that Move! [60.89021458068987]
4-Doodleは、テキストから動的3Dスケッチを生成するための、最初のトレーニング不要のフレームワークである。
提案手法は時間的にリアルかつ構造的に安定な3次元スケッチアニメーションを生成し,忠実度と可制御性の両方において既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-29T09:33:29Z) - Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。
入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:00:22Z) - Gaussians-to-Life: Text-Driven Animation of 3D Gaussian Splatting Scenes [49.26872036160368]
ガウススティング表現における高品質な3Dシーンの一部をアニメーションする手法を提案する。
従来の作業とは対照的に、複雑な既存の3Dシーンのリアルなアニメーションを可能にする。
論文 参考訳(メタデータ) (2024-11-28T16:01:58Z) - Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion [3.545941891218148]
本稿では,現在のアプローチのように時間とともに多視点一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立に生成するのに十分なのかを検討する。
本稿では,2次元映像拡散を利用して3次元映像を生成するモデルVid3Dを提案する。
論文 参考訳(メタデータ) (2024-06-17T04:09:04Z) - MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。
既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。
我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T15:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。