論文の概要: Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation
- arxiv url: http://arxiv.org/abs/2512.06158v1
- Date: Fri, 05 Dec 2025 21:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.211129
- Title: Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation
- Title(参考訳): トラッキングガイドによる4D生成:3次元モデルアニメーションのためのファウンデーション・トラックラ運動
- Authors: Su Sun, Cheng Zhao, Himangi Mittal, Gaurav Mittal, Rohith Kukkala, Yingjie Victor Chen, Mei Chen,
- Abstract要約: スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
- 参考スコア(独自算出の注目度): 21.075786141331974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating dynamic 4D objects from sparse inputs is difficult because it demands joint preservation of appearance and motion coherence across views and time while suppressing artifacts and temporal drift. We hypothesize that the view discrepancy arises from supervision limited to pixel- or latent-space video-diffusion losses, which lack explicitly temporally aware, feature-level tracking guidance. We present \emph{Track4DGen}, a two-stage framework that couples a multi-view video diffusion model with a foundation point tracker and a hybrid 4D Gaussian Splatting (4D-GS) reconstructor. The central idea is to explicitly inject tracker-derived motion priors into intermediate feature representations for both multi-view video generation and 4D-GS. In Stage One, we enforce dense, feature-level point correspondences inside the diffusion generator, producing temporally consistent features that curb appearance drift and enhance cross-view coherence. In Stage Two, we reconstruct a dynamic 4D-GS using a hybrid motion encoding that concatenates co-located diffusion features (carrying Stage-One tracking priors) with Hex-plane features, and augment them with 4D Spherical Harmonics for higher-fidelity dynamics modeling. \emph{Track4DGen} surpasses baselines on both multi-view video generation and 4D generation benchmarks, yielding temporally stable, text-editable 4D assets. Lastly, we curate \emph{Sketchfab28}, a high-quality dataset for benchmarking object-centric 4D generation and fostering future research.
- Abstract(参考訳): 動的4Dオブジェクトをスパース入力から生成することは、人工物や時間的ドリフトを抑えながら、ビューや時間にわたって外観と動きのコヒーレンスを共同で保存する必要があるため困難である。
我々は、視差は、時間的に意識された特徴レベルのトラッキングガイダンスが欠如している画素空間または潜在空間の動画拡散損失に制限された監督から生じると仮定する。
基礎点トラッカーとハイブリッド4Dガウス・スプラッティング(4D-GS)再構成器を備えた多視点ビデオ拡散モデルとを結合した2段階のフレームワークである \emph{Track4DGen} を提案する。
中心となる考え方は、多視点ビデオ生成と4D-GSの両方の中間特徴表現にトラッカー由来のモーション先行を明示的に注入することである。
ステージ1では,拡散発生器内の高密度な特徴レベル対応を強制し,外観のドリフトを抑制し,対面コヒーレンスを高める時間的に一貫した特徴を生じる。
ステージ2では,Hex平面特徴と共配置拡散特徴(ステージ1追跡先行を搬送する)を結合したハイブリッドモーション符号化を用いて動的4D-GSを再構成し,高忠実度ダイナミックスモデリングのための4次元球面高調波による拡張を行う。
\emph{Track4DGen}は、マルチビュービデオ生成と4D生成のベンチマークの両方のベースラインを超え、時間的に安定し、テキスト編集可能な4Dアセットを生成する。
最後に、オブジェクト中心の4D生成をベンチマークし、将来の研究を促進するための高品質なデータセットである \emph{Sketchfab28} をキュレートする。
関連論文リスト
- SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting [50.69165364520998]
実世界の非同期ビデオ集合を扱うために, マルチビデオ4Dガウススプラッティング (4DGS) 方式を提案する。
SyncTrack4Dは、4DGSの同時同期と4DGS再構成のためのキューとして動的シーンの高密度な4Dトラック表現を直接活用する。
我々はPanoptic Studio と SyncNeRF Blender に対するアプローチを評価し,0.26 フレーム以下の平均時間誤差でサブフレーム同期精度を示し,高忠実度 4D 再構成は26.3 PSNR スコアに達した。
論文 参考訳(メタデータ) (2025-12-03T23:05:01Z) - SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis [47.61773799705708]
同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。
本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-24T17:14:19Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。