論文の概要: 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos
- arxiv url: http://arxiv.org/abs/2506.08015v1
- Date: Mon, 09 Jun 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.12143
- Title: 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos
- Title(参考訳): 4DGT:現実世界のモノクロビデオを用いた4Dガウス変換器の学習
- Authors: Zhen Xu, Zhengqin Li, Zhao Dong, Xiaowei Zhou, Richard Newcombe, Zhaoyang Lv,
- Abstract要約: 動的シーン再構成のための4次元ガウス型トランスフォーマーモデルである4DGTを提案する。
4D Gaussian を誘導バイアスとして用い、4DGT は静的および動的成分を統一する。
我々のモデルでは64個のフレームを回転風で連続的に処理し、現場で一貫した4Dガウスを予測している。
- 参考スコア(独自算出の注目度): 29.061337554486897
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose 4DGT, a 4D Gaussian-based Transformer model for dynamic scene reconstruction, trained entirely on real-world monocular posed videos. Using 4D Gaussian as an inductive bias, 4DGT unifies static and dynamic components, enabling the modeling of complex, time-varying environments with varying object lifespans. We proposed a novel density control strategy in training, which enables our 4DGT to handle longer space-time input and remain efficient rendering at runtime. Our model processes 64 consecutive posed frames in a rolling-window fashion, predicting consistent 4D Gaussians in the scene. Unlike optimization-based methods, 4DGT performs purely feed-forward inference, reducing reconstruction time from hours to seconds and scaling effectively to long video sequences. Trained only on large-scale monocular posed video datasets, 4DGT can outperform prior Gaussian-based networks significantly in real-world videos and achieve on-par accuracy with optimization-based methods on cross-domain videos. Project page: https://4dgt.github.io
- Abstract(参考訳): 動的シーン再構成のための4Dガウス型トランスフォーマーモデルである4DGTを提案する。
誘導バイアスとして4D Gaussianを使用することで、4DGTは静的および動的コンポーネントを統一し、様々なオブジェクト寿命を持つ複雑な時間変化環境のモデリングを可能にする。
我々は4DGTでより長い時空間入力を処理し、実行時に効率よくレンダリングできる新しい密度制御戦略を提案した。
我々のモデルでは64個のフレームを回転風で連続的に処理し、現場で一貫した4Dガウスを予測している。
最適化ベースの方法とは異なり、4DGTは純粋にフィードフォワード推論を行い、復元時間を数時間から秒に短縮し、長いビデオシーケンスに効果的にスケーリングする。
4DGTは、大規模な単眼ビデオデータセットのみをトレーニングし、4DGTは、現実のビデオにおいて、ガウシアン以前のネットワークを著しく上回り、クロスドメインビデオの最適化に基づく手法で、オンパー精度を達成できる。
プロジェクトページ:https://4dgt.github.io
関連論文リスト
- Disentangled 4D Gaussian Splatting: Towards Faster and More Efficient Dynamic Scene Rendering [12.27734287104036]
2次元画像から動的シーンを合成する新アンタングルビュー合成(NVS)は重要な課題である。
時間的および空間的変形を両立させる新しい表現・レンダリング手法であるDisentangled 4D Gaussianting(Disentangled4DGS)を導入する。
提案手法は,3090 GPU上での1352times1014$の解像度で,343FPSの平均レンダリング速度を実現している。
論文 参考訳(メタデータ) (2025-03-28T05:46:02Z) - GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。
モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。
プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文 参考訳(メタデータ) (2025-01-05T23:55:33Z) - S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering [103.32717396287751]
本研究では,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。
HexPlaneにインスパイアされたニューラルボクセル符号化アルゴリズムは、4Dニューラルボクセルの機能を効率的に構築するために提案されている。
我々の4D-GS法は、高解像度の82 FPSで、3090 GPUで800$times$800の解像度でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。