論文の概要: TriDiff-4D: Fast 4D Generation through Diffusion-based Triplane Re-posing
- arxiv url: http://arxiv.org/abs/2511.16662v1
- Date: Thu, 20 Nov 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.807915
- Title: TriDiff-4D: Fast 4D Generation through Diffusion-based Triplane Re-posing
- Title(参考訳): TriDiff-4D:拡散型トリプレーン再資源化による高速4次元発電
- Authors: Eddie Pokming Sheung, Qihao Liu, Wufei Ma, Prakhar Kaushik, Jianwen Xie, Alan Yuille,
- Abstract要約: TriDiff-4Dは、拡散ベースの3次元平面再構成を用いて、高品質で時間的に整合した4Dアバターを生成する新しい4D生成パイプラインである。
TriDiff-4Dは、大規模な3Dおよびモーションデータセットから3D構造とモーション先行を明示的に学習することにより、時間的一貫性、運動精度、計算効率、視覚的忠実性に優れた骨格駆動の4D生成を可能にする。
- 参考スコア(独自算出の注目度): 30.542634775083112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing demand for 3D animation, generating high-fidelity, controllable 4D avatars from textual descriptions remains a significant challenge. Despite notable efforts in 4D generative modeling, existing methods exhibit fundamental limitations that impede their broader applicability, including temporal and geometric inconsistencies, perceptual artifacts, motion irregularities, high computational costs, and limited control over dynamics. To address these challenges, we propose TriDiff-4D, a novel 4D generative pipeline that employs diffusion-based triplane re-posing to produce high-quality, temporally coherent 4D avatars. Our model adopts an auto-regressive strategy to generate 4D sequences of arbitrary length, synthesizing each 3D frame with a single diffusion process. By explicitly learning 3D structure and motion priors from large-scale 3D and motion datasets, TriDiff-4D enables skeleton-driven 4D generation that excels in temporal consistency, motion accuracy, computational efficiency, and visual fidelity. Specifically, TriDiff-4D first generates a canonical 3D avatar and a corresponding motion sequence from a text prompt, then uses a second diffusion model to animate the avatar according to the motion sequence, supporting arbitrarily long 4D generation. Experimental results demonstrate that TriDiff-4D significantly outperforms existing methods, reducing generation time from hours to seconds by eliminating the optimization process, while substantially improving the generation of complex motions with high-fidelity appearance and accurate 3D geometry.
- Abstract(参考訳): 3Dアニメーションの需要が高まり、テキスト記述から高忠実でコントロール可能な4Dアバターを生成することは、依然として大きな課題である。
4次元生成モデリングにおける顕著な取り組みにもかかわらず、既存の手法は、時間的および幾何学的不整合、知覚的アーティファクト、運動の不規則、高い計算コスト、ダイナミックスに対する制限を含む、より広範な適用性を阻害する基本的な制限を示す。
これらの課題に対処するために,拡散型3次元平面再構成を用いて高品質かつ時間的に整合した4次元アバターを生成する新しい4次元生成パイプラインであるTriDiff-4Dを提案する。
モデルでは,任意の長さの4次元列を生成する自動回帰戦略を採用し,各3次元フレームを1つの拡散過程で合成する。
TriDiff-4Dは、大規模な3Dおよびモーションデータセットから3D構造とモーション先行を明示的に学習することにより、時間的一貫性、運動精度、計算効率、視覚的忠実性に優れた骨格駆動の4D生成を可能にする。
具体的には、TriDiff-4Dは、まずテキストプロンプトから標準3Dアバターと対応する動きシーケンスを生成し、次に、第2拡散モデルを用いて、動きシーケンスに従ってアバターをアニメーション化し、任意に長い4D生成をサポートする。
実験結果から,TriDiff-4Dは既存の手法よりも優れており,最適化処理を不要にすることで生成時間を数時間から秒に短縮し,高忠実な外観と正確な3次元形状の複雑な動きの生成を大幅に改善した。
関連論文リスト
- MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image [8.22464804794448]
静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。
本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-07-24T12:48:14Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。