論文の概要: Split4D: Decomposed 4D Scene Reconstruction Without Video Segmentation
- arxiv url: http://arxiv.org/abs/2512.22745v1
- Date: Sun, 28 Dec 2025 02:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.202212
- Title: Split4D: Decomposed 4D Scene Reconstruction Without Video Segmentation
- Title(参考訳): Split4D:ビデオセグメンテーションなしで4Dシーンを分解
- Authors: Yongzhen Hu, Yihui Yang, Haotong Lin, Yifan Wang, Junting Dong, Yifu Deng, Xinyu Zhu, Fan Jia, Hujun Bao, Xiaowei Zhou, Sida Peng,
- Abstract要約: 我々は、Freetime FeatureGSで分解された4Dシーンを表現する。
画像ごとのセグメンテーションマップから正確に復元するためのストリーミング機能学習戦略を設計する。
いくつかのデータセットに対する実験結果から,提案手法の再現性は近年の手法よりも大きなマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 76.21162972133534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of decomposed 4D scene reconstruction from multi-view videos. Recent methods achieve this by lifting video segmentation results to a 4D representation through differentiable rendering techniques. Therefore, they heavily rely on the quality of video segmentation maps, which are often unstable, leading to unreliable reconstruction results. To overcome this challenge, our key idea is to represent the decomposed 4D scene with the Freetime FeatureGS and design a streaming feature learning strategy to accurately recover it from per-image segmentation maps, eliminating the need for video segmentation. Freetime FeatureGS models the dynamic scene as a set of Gaussian primitives with learnable features and linear motion ability, allowing them to move to neighboring regions over time. We apply a contrastive loss to Freetime FeatureGS, forcing primitive features to be close or far apart based on whether their projections belong to the same instance in the 2D segmentation map. As our Gaussian primitives can move across time, it naturally extends the feature learning to the temporal dimension, achieving 4D segmentation. Furthermore, we sample observations for training in a temporally ordered manner, enabling the streaming propagation of features over time and effectively avoiding local minima during the optimization process. Experimental results on several datasets show that the reconstruction quality of our method outperforms recent methods by a large margin.
- Abstract(参考訳): 本稿では,多視点映像からの4次元シーン再構成の分解問題に対処する。
近年の手法では、映像分割の結果を微分可能なレンダリング技術により4次元表現に引き上げることによって実現されている。
そのため、しばしば不安定な映像分割マップの品質に大きく依存しており、信頼性の低い復元結果をもたらす。
この課題を克服するために、我々はFreetime FeatureGSで分解された4Dシーンを表現し、画像ごとのセグメンテーションマップから正確にリカバリするためのストリーミング機能学習戦略を設計し、ビデオセグメンテーションの必要性を解消する。
Freetime FeatureGSは、ダイナミックシーンを学習可能な特徴と線形動作能力を備えたガウス原始体のセットとしてモデル化し、時間とともに近隣地域へ移動できるようにする。
Freetime FeatureGSには対照的な損失があり、2Dセグメンテーションマップにおいて、プロジェクションが同一のインスタンスに属しているかどうかに基づいて、原始的特徴が近いか遠く離れているように強制される。
ガウス原始体は時間を超えて移動できるので、自然に特徴学習を時間次元にまで拡張し、4Dセグメンテーションを実現します。
さらに、時間的に順序づけられたトレーニングの観察をサンプリングし、時間とともに特徴のストリーミング伝搬を可能にし、最適化プロセス中に局所的なミニマを効果的に回避する。
いくつかのデータセットに対する実験結果から,提案手法の再現性は近年の手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- Dynamic Gaussian Scene Reconstruction from Unsynchronized Videos [31.54046494140498]
マルチビュー映像再構成はコンピュータビジョンにおいて重要な役割を担い、映画製作、バーチャルリアリティー、モーション分析に応用できる。
同期のないマルチビュービデオから高品質な4DGS再構成を実現するための新しい時間的アライメント戦略を提案する。
論文 参考訳(メタデータ) (2025-11-14T11:20:43Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Instant4D: 4D Gaussian Splatting in Minutes [8.897770973611427]
Instant4Dは、キャリブレーションされたカメラや奥行きセンサーを使わずに、数分でカジュアルな映像シーケンスを処理できる単分子再構成システムである。
我々の設計は、幾何学的整合性を保ちながら冗長性を著しく低減し、モデルのサイズを元のフットプリントの10%以下に削減する。
提案手法は,Dycheckデータセット上で10分以内に,あるいは一般的な200フレームのビデオに対して,単一のビデオを再構成する。
論文 参考訳(メタデータ) (2025-10-01T17:07:21Z) - 4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-24T15:37:17Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [55.704264233274294]
ぼやけたモノクロ映像から高品質な4Dモデルを再構成するためのDeblur4DGSを提案する。
我々は露光時間内の連続的動的表現を露光時間推定に変換する。
Deblur4DGSは、新規なビュー合成以外にも、複数の視点からぼやけたビデオを改善するために応用できる。
論文 参考訳(メタデータ) (2024-12-09T12:02:11Z) - Fast Encoder-Based 3D from Casual Videos via Point Track Processing [22.563073026889324]
そこで我々は,カジュアルビデオから3D構造とカメラの位置を動的コンテンツから推定できる学習ベースのTracksTo4Dを提案する。
TracksTo4Dは、カジュアルなビデオのデータセットに基づいて教師なしの方法で訓練される。
実験により、TracksTo4Dは、最先端の手法に匹敵する精度で、基礎となるビデオの時間点雲とカメラの位置を再構築できることが示された。
論文 参考訳(メタデータ) (2024-04-10T15:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。