論文の概要: SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2601.00285v1
- Date: Thu, 01 Jan 2026 09:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.360765
- Title: SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting
- Title(参考訳): SV-GS:Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting
- Authors: Jun-Jee Chao, Volkan Isler,
- Abstract要約: SV-GSは変形モデルと物体の動きを同時に推定するフレームワークである。
提案手法は,PSNRの34%までのスパース観測下での既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.12278036176021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing a dynamic target moving over a large area is challenging. Standard approaches for dynamic object reconstruction require dense coverage in both the viewing space and the temporal dimension, typically relying on multi-view videos captured at each time step. However, such setups are only possible in constrained environments. In real-world scenarios, observations are often sparse over time and captured sparsely from diverse viewpoints (e.g., from security cameras), making dynamic reconstruction highly ill-posed. We present SV-GS, a framework that simultaneously estimates a deformation model and the object's motion over time under sparse observations. To initialize SV-GS, we leverage a rough skeleton graph and an initial static reconstruction as inputs to guide motion estimation. (Later, we show that this input requirement can be relaxed.) Our method optimizes a skeleton-driven deformation field composed of a coarse skeleton joint pose estimator and a module for fine-grained deformations. By making only the joint pose estimator time-dependent, our model enables smooth motion interpolation while preserving learned geometric details. Experiments on synthetic datasets show that our method outperforms existing approaches under sparse observations by up to 34% in PSNR, and achieves comparable performance to dense monocular video methods on real-world datasets despite using significantly fewer frames. Moreover, we demonstrate that the input initial static reconstruction can be replaced by a diffusion-based generative prior, making our method more practical for real-world scenarios.
- Abstract(参考訳): 広い領域を移動する動的ターゲットの再構築は困難である。
動的オブジェクト再構成の標準的なアプローチは、視界と時間次元の両方で密接なカバレッジを必要とし、通常、各時間ステップでキャプチャされたマルチビュービデオに依存する。
しかし、そのような設定は制約のある環境でのみ可能である。
現実のシナリオでは、観察は時間とともに疎外され、様々な視点(例えば防犯カメラから)から疎外され、動的再構築は非常に不適切である。
SV-GSは変形モデルと物体の動きを同時に推定するフレームワークである。
SV-GSを初期化するために、粗いスケルトングラフと初期静的再構成を入力として利用し、動作推定を誘導する。
(後述)この入力要求を緩和できることを示す。
本手法は, 粗いスケルトン継手ポーズ推定器と細粒度変形用モジュールからなるスケルトン駆動変形場を最適化する。
関節ポーズ推定器のみを時間依存にすることで,学習した幾何学的詳細を保存しながら円滑な運動補間を可能にする。
合成データセットを用いた実験により,PSNRでは,PSNRで最大34%のスパース観測で既存の手法よりも優れており,フレームが大幅に少ないにもかかわらず,実世界のデータセット上での高密度モノクラービデオ法と同等の性能を発揮することが示された。
さらに,本手法を現実のシナリオでより実用的なものにするため,入力初期静的再構成を拡散型生成に置き換えることが実証された。
関連論文リスト
- IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes [25.939318593012484]
動的駆動シーンの再構築は、センサ・リアリスティック・シミュレーションによる自律システム開発に不可欠である。
我々は,動的シーンを明示的なインスタンス分解と学習可能なモーショントラジェクトリで再構成する,自己教師型3次元ガウススティングフレームワークIDSplatを提案する。
本手法は, インスタンスレベルの分解を維持しつつ, 競合する再構成品質を実現し, 再トレーニングを伴わずに, 多様なシーケンスやビュー密度を一般化する。
論文 参考訳(メタデータ) (2025-11-24T15:48:08Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video [13.510513575340106]
単一の単眼映像から動的に調音された物体を再構成することは困難であり、限られた視点から形状、動き、カメラパラメータを共同で推定する必要がある。
可視形状や下層の骨格を含むパラメトリックモデルを効率的に学習する新しい2相法であるS3Oを提案する。
標準ベンチマークとPlanetZooデータセットの実験により、S3Oはより正確な3D再構成と可塑性骨格を提供し、最先端技術と比較してトレーニング時間を約60%短縮することを確認した。
論文 参考訳(メタデータ) (2024-05-21T09:01:00Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。