論文の概要: SWiT-4D: Sliding-Window Transformer for Lossless and Parameter-Free Temporal 4D Generation
- arxiv url: http://arxiv.org/abs/2512.10860v1
- Date: Thu, 11 Dec 2025 17:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.493129
- Title: SWiT-4D: Sliding-Window Transformer for Lossless and Parameter-Free Temporal 4D Generation
- Title(参考訳): SWiT-4D:無損失・パラメータフリー4D生成用スライディング・ウィンドウ変換器
- Authors: Kehong Gong, Zhengyu Wen, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Chenbin Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang,
- Abstract要約: SWiT-4Dは、損失のないパラメータフリーの時間的4Dメッシュ生成のためのスライディング・ウィンドウ変換器である。
SWiT-4D は任意の Diffusion Transformer (DiT) ベースの Image-to-3D ジェネレータとシームレスに統合される。
高忠実度幾何と安定した時間的整合性を実現し、非常に限られた4D監視下での実用的展開可能性を示す。
- 参考スコア(独自算出の注目度): 30.72482055095692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in 4D content generation, the conversion of monocular videos into high-quality animated 3D assets with explicit 4D meshes remains considerably challenging. The scarcity of large-scale, naturally captured 4D mesh datasets further limits the ability to train generalizable video-to-4D models from scratch in a purely data-driven manner. Meanwhile, advances in image-to-3D generation, supported by extensive datasets, offer powerful prior models that can be leveraged. To better utilize these priors while minimizing reliance on 4D supervision, we introduce SWiT-4D, a Sliding-Window Transformer for lossless, parameter-free temporal 4D mesh generation. SWiT-4D integrates seamlessly with any Diffusion Transformer (DiT)-based image-to-3D generator, adding spatial-temporal modeling across video frames while preserving the original single-image forward process, enabling 4D mesh reconstruction from videos of arbitrary length. To recover global translation, we further introduce an optimization-based trajectory module tailored for static-camera monocular videos. SWiT-4D demonstrates strong data efficiency: with only a single short (<10s) video for fine-tuning, it achieves high-fidelity geometry and stable temporal consistency, indicating practical deployability under extremely limited 4D supervision. Comprehensive experiments on both in-domain zoo-test sets and challenging out-of-domain benchmarks (C4D, Objaverse, and in-the-wild videos) show that SWiT-4D consistently outperforms existing baselines in temporal smoothness. Project page: https://animotionlab.github.io/SWIT4D/
- Abstract(参考訳): 4Dコンテンツ生成の大幅な進歩にもかかわらず、モノクロビデオの高品質なアニメーション3Dアセットへの変換は、依然としてかなり難しい。
大規模で自然にキャプチャされた4Dメッシュデータセットの不足により、純粋にデータ駆動の方法で、一般化可能なビデオから4Dモデルをスクラッチからトレーニングする能力はさらに制限される。
一方、広範なデータセットによってサポートされている画像から3D生成の進歩は、活用可能な強力な先行モデルを提供する。
SWiT-4D, Sliding-Window Transformer for Losless, parameters-free temporal 4D mesh generation。
SWiT-4D は Diffusion Transformer (DiT) ベースのイメージ・トゥ・3D ジェネレータとシームレスに統合され、ビデオフレーム間の空間時間モデルを追加し、元のシングルイメージのフォワードプロセスを保存し、任意の長さのビデオから4Dメッシュの再構成を可能にする。
グローバルトランスフォーメーションを回復するために,静的カメラモノクロビデオに適した最適化ベースのトラジェクトリモジュールを導入する。
SWiT-4Dは、1本のショート(10秒)ビデオのみを微調整することで、高忠実度な幾何学と安定した時間的整合性を実現し、極めて限られた4D監視下での実用的デプロイ可能性を示している。
ドメイン内動物園セットとドメイン外ベンチマーク(C4D, Objaverse, in-the-wild)の総合的な実験により、SWiT-4Dは時間的滑らかさにおいて既存のベースラインを一貫して上回ることを示した。
プロジェクトページ:https://animotionlab.github.io/SWIT4D/
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。