論文の概要: Flux4D: Flow-based Unsupervised 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.03210v1
- Date: Tue, 02 Dec 2025 20:28:45 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:55:45.316921
- Title: Flux4D: Flow-based Unsupervised 4D Reconstruction
- Title(参考訳): Flux4D:フローベース非教師なし4D再構成
- Authors: Jingkang Wang, Henry Che, Yun Chen, Ze Yang, Lily Goli, Sivabalan Manivasagam, Raquel Urtasun,
- Abstract要約: 視覚的な観察から大規模なダイナミックシーンを再構築することは、コンピュータビジョンの根本的な課題である。
大規模動的シーンの4次元再構成のためのシンプルでスケーラブルなフレームワークであるFlux4Dを紹介する。
提案手法は,数秒以内の動的シーンの効率的な再構築を可能にし,大規模データセットに効果的にスケールし,目に見えない環境によく適応する。
- 参考スコア(独自算出の注目度): 30.764886648248222
- License:
- Abstract: Reconstructing large-scale dynamic scenes from visual observations is a fundamental challenge in computer vision, with critical implications for robotics and autonomous systems. While recent differentiable rendering methods such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) have achieved impressive photorealistic reconstruction, they suffer from scalability limitations and require annotations to decouple actor motion. Existing self-supervised methods attempt to eliminate explicit annotations by leveraging motion cues and geometric priors, yet they remain constrained by per-scene optimization and sensitivity to hyperparameter tuning. In this paper, we introduce Flux4D, a simple and scalable framework for 4D reconstruction of large-scale dynamic scenes. Flux4D directly predicts 3D Gaussians and their motion dynamics to reconstruct sensor observations in a fully unsupervised manner. By adopting only photometric losses and enforcing an "as static as possible" regularization, Flux4D learns to decompose dynamic elements directly from raw data without requiring pre-trained supervised models or foundational priors simply by training across many scenes. Our approach enables efficient reconstruction of dynamic scenes within seconds, scales effectively to large datasets, and generalizes well to unseen environments, including rare and unknown objects. Experiments on outdoor driving datasets show Flux4D significantly outperforms existing methods in scalability, generalization, and reconstruction quality.
- Abstract(参考訳): 視覚的な観察から大規模なダイナミックシーンを再構築することは、ロボット工学や自律システムにとって重要な意味を持つコンピュータビジョンの基本的な課題である。
ニューラルレイディアンス・フィールド(NeRF)や3Dガウス・スプレイティング(3DGS)のような最近の微分可能なレンダリング手法は、印象的なフォトリアリスティックな再構成を実現しているが、スケーラビリティの限界に悩まされ、アクターの動きを分離するためにアノテーションを必要とする。
既存の自己監督手法は、動きの手がかりや幾何学的先行点を活用することで明示的なアノテーションを排除しようとするが、それはシーンごとの最適化とハイパーパラメータチューニングに対する感度に制約される。
本稿では,大規模動的シーンの4次元再構成のためのシンプルでスケーラブルなフレームワークであるFlux4Dを紹介する。
Flux4Dは3Dガウスとその運動力学を直接予測し、完全に教師なしの方法でセンサー観測を再構築する。
光学的損失のみを採用して“可能な限り静的”な正規化を強制することにより、Flux4Dは、トレーニング済みの教師付きモデルや基礎的な事前処理を必要とせずに、生データから直接動的要素を分解することを学ぶ。
提案手法により,数秒以内の動的シーンの効率的な再構築が可能となり,大規模なデータセットに効果的にスケールでき,希少なオブジェクトや未知のオブジェクトを含む未知の環境によく適応できる。
屋外運転データセットの実験では、Flux4Dはスケーラビリティ、一般化、再構築品質において既存の手法よりも大幅に優れていた。
関連論文リスト
- DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - UnIRe: Unsupervised Instance Decomposition for Dynamic Urban Scene Reconstruction [36.00679909382783]
シーンを静的な背景と個々の動的インスタンスに分解する3D Splatting (3DGS)ベースのアプローチであるUnIReを提案する。
中心となる4Dスーパーポイントは、多フレームLiDAR点を4D空間にクラスタ化する新しい表現である。
実験により,本手法は動的シーン再構成において,高精度かつ柔軟なインスタンスレベルの編集を可能にしながら,既存の手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-04-01T13:15:58Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - H3D-DGS: Exploring Heterogeneous 3D Motion Representation for Deformable 3D Gaussian Splatting [39.2960379257236]
ダイナミックシーンの再構築は、3Dビジョンにおいて永続的な課題となる。
変形可能な3Dガウススプラッティングは,リアルタイムレンダリングと高視認性を実現するため,この作業に有効な方法として登場した。
このアプローチは、動的シーンを標準空間における静的な表現と時間変化のシーンモーションに分解する。
Neu3DVおよびCMU-Panopticデータセットを用いた実験により,本手法は最先端の変形可能な3次元ガウススプラッティング技術よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。