論文の概要: Director: Instance-aware Gaussian Splatting for Dynamic Scene Modeling and Understanding
- arxiv url: http://arxiv.org/abs/2604.01678v1
- Date: Thu, 02 Apr 2026 06:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.563609
- Title: Director: Instance-aware Gaussian Splatting for Dynamic Scene Modeling and Understanding
- Title(参考訳): ディレクター:動的シーンモデリングと理解のためのインスタンス対応ガウススプレイティング
- Authors: Yuheng Jiang, Yiwen Cai, Zihao Wang, Yize Wu, Sicheng Li, Zhuo Su, Shaohui Jiao, Lan Xu,
- Abstract要約: Volumetricは、レンダリングシーンを時間的コヒーレントな4D表現としてモデル化しようとしている。
Directorは、インスタンスセグメンテーションとオープン語彙クエリを同時に可能にしながら、時間的にコヒーレントな4D再構築を実現する。
- 参考スコア(独自算出の注目度): 40.60302826781783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric video seeks to model dynamic scenes as temporally coherent 4D representations. While recent Gaussian-based approaches achieve impressive rendering fidelity, they primarily emphasize appearance but are largely agnostic to instance-level structure, limiting stable tracking and semantic reasoning in highly dynamic scenarios. In this paper, we present Director, a unified spatio-temporal Gaussian representation that jointly models human performance, high-fidelity rendering, and instance-level semantics. Our key insight is that embedding instance-consistent semantics naturally complements 4D modeling, enabling more accurate scene decomposition while supporting robust dynamic scene understanding. To this end, we leverage temporally aligned instance masks and sentence embeddings derived from Multimodal Large Language Models to supervise the learnable semantic features of each Gaussian via two MLP decoders, enabling language-aligned 4D representations and enforcing identity consistency over time. To enhance temporal stability, we bridge 2D optical flow with 4D Gaussians and finetune their motions, yielding reliable initialization and reducing drift. For the training, we further introduce a geometry-aware SDF constraints, along with regularization terms that enforces surface continuity, enhancing temporal coherence in dynamic foreground modeling. Experiments demonstrate that Director achieves temporally coherent 4D reconstructions while simultaneously enabling instance segmentation and open-vocabulary querying.
- Abstract(参考訳): ボリュームビデオは動的シーンを時間的コヒーレントな4D表現としてモデル化しようとする。
最近のガウシアンベースのアプローチは印象的なレンダリングの忠実さを達成しているが、それらは外見に重点を置いているが、主にインスタンスレベルの構造に非依存であり、非常にダイナミックなシナリオにおける安定したトラッキングとセマンティック推論を制限している。
本稿では,人間のパフォーマンス,高忠実度レンダリング,インスタンスレベルのセマンティクスを共同でモデル化した時空間ガウスの統一表現であるDirectorを提案する。
我々の重要な洞察は、インスタンス一貫性セマンティクスの埋め込みが自然に4Dモデリングを補完し、堅牢な動的シーン理解をサポートしながらより正確なシーン分解を可能にすることである。
この目的のために、時間的に整合したインスタンスマスクと多モーダル大言語モデルから派生した文埋め込みを利用して、2つのMPPデコーダを介して各ガウスの学習可能な意味的特徴を監督し、言語に整合した4D表現を可能にし、時間とともにアイデンティティの整合性を強制する。
時間的安定性を高めるため、4次元ガウスで2次元光流をブリッジし、その動きを微調整し、信頼性の高い初期化とドリフトの低減を実現した。
トレーニングでは,動的フォアグラウンドモデリングにおいて,表面の連続性を強制し,時間的コヒーレンスを高める正規化条件とともに,幾何を考慮したSDF制約を導入する。
実験により、Deleは時間的コヒーレントな4D再構成を実現し、同時にインスタンスセグメンテーションとオープン語彙クエリを可能にした。
関連論文リスト
- SS4D: Native 4D Generative Model via Structured Spacetime Latents [50.29500511908054]
モノクロビデオから直接動的3Dオブジェクトを合成する,ネイティブな4D生成モデルであるSS4Dを提案する。
発電機を4Dデータで直接訓練し、高忠実度、時間的コヒーレンス、構造的整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T10:45:06Z) - MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。
我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。
境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文 参考訳(メタデータ) (2025-12-10T02:49:09Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。
具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。
意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文 参考訳(メタデータ) (2025-03-09T19:58:51Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。
動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。
提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - Real-time Photorealistic Dynamic Scene Representation and Rendering with
4D Gaussian Splatting [8.078460597825142]
2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
本研究では、4次元プリミティブの集合を明示的な幾何学と外観モデルを用いて最適化することにより、動的シーンの基本的な時間的レンダリング量を近似することを提案する。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
論文 参考訳(メタデータ) (2023-10-16T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。