論文の概要: Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation
- arxiv url: http://arxiv.org/abs/2602.18830v1
- Date: Sat, 21 Feb 2026 13:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.337874
- Title: Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation
- Title(参考訳): 4次元オブジェクト生成のための時空間状態伝搬自己回帰モデル
- Authors: Liying Yang, Jialun Liu, Jiakui Hu, Chenhao Guan, Haibin Huang, Fangqiu Yi, Chi Zhang, Yanyan Liang,
- Abstract要約: 時空間状態伝搬自己回帰モデル(STAR)を提案する。
実験により、4DSTARは空間的時間的一貫した4Dオブジェクトを生成し、拡散モデルと競合する性能を実現する。
- 参考スコア(独自算出の注目度): 19.913442608499366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality 4D objects with spatial-temporal consistency is still formidable. Existing diffusion-based methods often struggle with spatial-temporal inconsistency, as they fail to leverage outputs from all previous timesteps to guide the generation at the current timestep. Therefore, we propose a Spatial-Temporal State Propagation AutoRegressive Model (4DSTAR), which generates 4D objects maintaining temporal-spatial consistency. 4DSTAR formulates the generation problem as the prediction of tokens that represent the 4D object. It consists of two key components: (1) The dynamic spatial-temporal state propagation autoregressive model (STAR) is proposed, which achieves spatial-temporal consistent generation. Unlike standard autoregressive models, STAR divides prediction tokens into groups based on timesteps. It models long-term dependencies by propagating spatial-temporal states from previous groups and utilizes these dependencies to guide generation at the next timestep. To this end, a spatial-temporal container is proposed, which dynamically updating the effective spatial-temporal state features from all historical groups, then updated features serve as conditional features to guide the prediction of the next token group. (2) The 4D VQ-VAE is proposed, which implicitly encodes the 4D structure into discrete space and decodes the discrete tokens predicted by STAR into temporally coherent dynamic 3D Gaussians. Experiments demonstrate that 4DSTAR generates spatial-temporal consistent 4D objects, and achieves performance competitive with diffusion models.
- Abstract(参考訳): 空間的時間的整合性を持つ高品質な4Dオブジェクトの生成は、いまだに難しい。
既存の拡散に基づく手法は、しばしば空間的時間的不整合に苦しむ。
そこで本稿では,時空間整合性を維持する4次元オブジェクトを生成する時空間状態伝搬自己回帰モデル(4DSTAR)を提案する。
4DSTARは、4Dオブジェクトを表すトークンの予測として生成問題を定式化する。
1) 動的時空間伝搬自己回帰モデル(STAR)を提案し, 空間的時間的一貫した生成を実現する。
通常の自己回帰モデルとは異なり、STARは予測トークンをタイムステップに基づいてグループに分割する。
従来のグループから時空間状態を伝播させることで長期的依存関係をモデル化し、これらの依存関係を利用して次のタイミングで生成をガイドする。
この目的のために、すべての歴史的グループから有効時空間状態の特徴を動的に更新する空間時空間容器を提案し、その後、更新された特徴を条件付き特徴として次のトークン群の予測を導出する。
2) 4D VQ-VAEは、4D構造を暗黙的に離散空間に符号化し、STARによって予測される離散トークンを時間的に一貫性のある3Dガウスに復号する。
実験により、4DSTARは空間的時間的一貫した4Dオブジェクトを生成し、拡散モデルと競合する性能を実現する。
関連論文リスト
- SS4D: Native 4D Generative Model via Structured Spacetime Latents [50.29500511908054]
モノクロビデオから直接動的3Dオブジェクトを合成する,ネイティブな4D生成モデルであるSS4Dを提案する。
発電機を4Dデータで直接訓練し、高忠実度、時間的コヒーレンス、構造的整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T10:45:06Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences [54.77163447282599]
既存の生成フレームワークは、すべての空間領域を均一に扱い、現実世界のシーンで様々な不確実性を見渡せる。
4次元LiDAR世界モデリングのための不確実性認識フレームワークであるU4Dを提案する。
提案手法はまず,事前訓練されたセグメンテーションモデルから空間不確実性マップを推定し,意味論的に困難な領域を局所化する。
次に,(1)高エントロピー領域を微細な幾何学的忠実度で再構成する不確実領域モデリング,(2)学習された構造的先行条件の下で残りの領域を合成する不確実条件完備化という2つの段階を通じて,「ハード・トゥ・イージー」な方法で生成を行う。
論文 参考訳(メタデータ) (2025-12-02T17:59:57Z) - 4DSTR: Advancing Generative 4D Gaussians with Spatial-Temporal Rectification for High-Quality and Consistent 4D Generation [28.11338918279445]
本研究では,空間的時間的補正により生成する4次元ガウス散乱を変調する4DSTRと呼ばれる新しい4D生成ネットワークを提案する。
実験の結果,4DSTRは映像から4Dまでの性能を向上し,再現性,空間的時間的整合性,迅速な時間的動きへの適応性に優れていた。
論文 参考訳(メタデータ) (2025-11-10T15:57:03Z) - Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation [50.01520547454224]
現在の生成モデルは、時空間外挿と空間新規ビュー合成(NVS)を同時にサポートする4次元駆動シーンの合成に苦慮している
本研究では,2つの拡散過程に分散するDiST-4Dを提案する。DST-Tは過去の観測結果から直接,将来の距離深度と多視点RGBシーケンスを予測し,DST-Sは,既存の視点でのみ空間的NVSを訓練し,サイクル整合性を実現する。
実験により、DiST-4Dは時間的予測とNVSタスクの両方において最先端のパフォーマンスを達成し、同時に計画関連評価において競合性能を提供することが示された。
論文 参考訳(メタデータ) (2025-03-19T13:49:48Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。