論文の概要: Flux4D: Flow-based Unsupervised 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.03210v1
- Date: Tue, 02 Dec 2025 20:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:55.012379
- Title: Flux4D: Flow-based Unsupervised 4D Reconstruction
- Title(参考訳): Flux4D:フローベース非教師なし4D再構成
- Authors: Jingkang Wang, Henry Che, Yun Chen, Ze Yang, Lily Goli, Sivabalan Manivasagam, Raquel Urtasun,
- Abstract要約: 視覚的な観察から大規模なダイナミックシーンを再構築することは、コンピュータビジョンの根本的な課題である。
大規模動的シーンの4次元再構成のためのシンプルでスケーラブルなフレームワークであるFlux4Dを紹介する。
提案手法は,数秒以内の動的シーンの効率的な再構築を可能にし,大規模データセットに効果的にスケールし,目に見えない環境によく適応する。
- 参考スコア(独自算出の注目度): 30.764886648248222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing large-scale dynamic scenes from visual observations is a fundamental challenge in computer vision, with critical implications for robotics and autonomous systems. While recent differentiable rendering methods such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) have achieved impressive photorealistic reconstruction, they suffer from scalability limitations and require annotations to decouple actor motion. Existing self-supervised methods attempt to eliminate explicit annotations by leveraging motion cues and geometric priors, yet they remain constrained by per-scene optimization and sensitivity to hyperparameter tuning. In this paper, we introduce Flux4D, a simple and scalable framework for 4D reconstruction of large-scale dynamic scenes. Flux4D directly predicts 3D Gaussians and their motion dynamics to reconstruct sensor observations in a fully unsupervised manner. By adopting only photometric losses and enforcing an "as static as possible" regularization, Flux4D learns to decompose dynamic elements directly from raw data without requiring pre-trained supervised models or foundational priors simply by training across many scenes. Our approach enables efficient reconstruction of dynamic scenes within seconds, scales effectively to large datasets, and generalizes well to unseen environments, including rare and unknown objects. Experiments on outdoor driving datasets show Flux4D significantly outperforms existing methods in scalability, generalization, and reconstruction quality.
- Abstract(参考訳): 視覚的な観察から大規模なダイナミックシーンを再構築することは、ロボット工学や自律システムにとって重要な意味を持つコンピュータビジョンの基本的な課題である。
ニューラルレイディアンス・フィールド(NeRF)や3Dガウス・スプレイティング(3DGS)のような最近の微分可能なレンダリング手法は、印象的なフォトリアリスティックな再構成を実現しているが、スケーラビリティの限界に悩まされ、アクターの動きを分離するためにアノテーションを必要とする。
既存の自己監督手法は、動きの手がかりや幾何学的先行点を活用することで明示的なアノテーションを排除しようとするが、それはシーンごとの最適化とハイパーパラメータチューニングに対する感度に制約される。
本稿では,大規模動的シーンの4次元再構成のためのシンプルでスケーラブルなフレームワークであるFlux4Dを紹介する。
Flux4Dは3Dガウスとその運動力学を直接予測し、完全に教師なしの方法でセンサー観測を再構築する。
光学的損失のみを採用して“可能な限り静的”な正規化を強制することにより、Flux4Dは、トレーニング済みの教師付きモデルや基礎的な事前処理を必要とせずに、生データから直接動的要素を分解することを学ぶ。
提案手法により,数秒以内の動的シーンの効率的な再構築が可能となり,大規模なデータセットに効果的にスケールでき,希少なオブジェクトや未知のオブジェクトを含む未知の環境によく適応できる。
屋外運転データセットの実験では、Flux4Dはスケーラビリティ、一般化、再構築品質において既存の手法よりも大幅に優れていた。
関連論文リスト
- RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction [8.13353479857245]
4Dリコンストラクション、特に4Dガウシアンスプラッティングは、これらの課題に対処するための有望な方向性を提供する。
本研究では,4次元シーン再構成のための頑健で効率的なフレームワーク,すなわち,ガウススティングSLAM(RU4D-SLAM)における不確実性の再重み付けを提案する。
提案手法は,軌道精度と4次元シーン再構成の両面において,最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T11:47:43Z) - EVolSplat4D: Efficient Volume-based Gaussian Splatting for 4D Urban Scene Synthesis [43.898895514609286]
EvolSplat4Dは、ボリュームベースとピクセルベースのガウス予測を統合することで、既存のピクセル単位のパラダイムを超えたフィードフォワードフレームワークである。
EvolSplat4Dは静的環境と動的環境の両方を高い精度と一貫性で再構成し、シーンごとの最適化と最先端のフィードフォワードベースラインの両方に優れることを示す。
論文 参考訳(メタデータ) (2026-01-22T13:39:29Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - UnIRe: Unsupervised Instance Decomposition for Dynamic Urban Scene Reconstruction [36.00679909382783]
シーンを静的な背景と個々の動的インスタンスに分解する3D Splatting (3DGS)ベースのアプローチであるUnIReを提案する。
中心となる4Dスーパーポイントは、多フレームLiDAR点を4D空間にクラスタ化する新しい表現である。
実験により,本手法は動的シーン再構成において,高精度かつ柔軟なインスタンスレベルの編集を可能にしながら,既存の手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-04-01T13:15:58Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。
具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。
意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文 参考訳(メタデータ) (2025-03-09T19:58:51Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - H3D-DGS: Exploring Heterogeneous 3D Motion Representation for Deformable 3D Gaussian Splatting [39.2960379257236]
ダイナミックシーンの再構築は、3Dビジョンにおいて永続的な課題となる。
変形可能な3Dガウススプラッティングは,リアルタイムレンダリングと高視認性を実現するため,この作業に有効な方法として登場した。
このアプローチは、動的シーンを標準空間における静的な表現と時間変化のシーンモーションに分解する。
Neu3DVおよびCMU-Panopticデータセットを用いた実験により,本手法は最先端の変形可能な3次元ガウススプラッティング技術よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。