論文の概要: SUDS: Scalable Urban Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2303.14536v1
- Date: Sat, 25 Mar 2023 18:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:05:38.825835
- Title: SUDS: Scalable Urban Dynamic Scenes
- Title(参考訳): SUDS: スケーラブルな都市ダイナミックシーン
- Authors: Haithem Turki, Jason Y. Zhang, Francesco Ferroni, Deva Ramanan
- Abstract要約: 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
- 参考スコア(独自算出の注目度): 46.965165390077146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend neural radiance fields (NeRFs) to dynamic large-scale urban scenes.
Prior work tends to reconstruct single video clips of short durations (up to 10
seconds). Two reasons are that such methods (a) tend to scale linearly with the
number of moving objects and input videos because a separate model is built for
each and (b) tend to require supervision via 3D bounding boxes and panoptic
labels, obtained manually or via category-specific models. As a step towards
truly open-world reconstructions of dynamic cities, we introduce two key
innovations: (a) we factorize the scene into three separate hash table data
structures to efficiently encode static, dynamic, and far-field radiance
fields, and (b) we make use of unlabeled target signals consisting of RGB
images, sparse LiDAR, off-the-shelf self-supervised 2D descriptors, and most
importantly, 2D optical flow.
Operationalizing such inputs via photometric, geometric, and feature-metric
reconstruction losses enables SUDS to decompose dynamic scenes into the static
background, individual objects, and their motions. When combined with our
multi-branch table representation, such reconstructions can be scaled to tens
of thousands of objects across 1.2 million frames from 1700 videos spanning
geospatial footprints of hundreds of kilometers, (to our knowledge) the largest
dynamic NeRF built to date.
We present qualitative initial results on a variety of tasks enabled by our
representations, including novel-view synthesis of dynamic urban scenes,
unsupervised 3D instance segmentation, and unsupervised 3D cuboid detection. To
compare to prior work, we also evaluate on KITTI and Virtual KITTI 2,
surpassing state-of-the-art methods that rely on ground truth 3D bounding box
annotations while being 10x quicker to train.
- Abstract(参考訳): 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
以前の作業では、短い期間(最大10秒)の単一のビデオクリップを再構築する傾向がある。
そのような方法が2つの理由
(a)個別のモデルが構築されているため、移動物体数や入力映像数と線形にスケールする傾向がある。
b) 手動またはカテゴリー別モデルを用いて取得した3Dバウンディングボックスやパノプティカルラベルによる監視を必要とする傾向にある。
ダイナミックシティの真のオープンワールド再構築に向けたステップとして,2つの重要なイノベーションを紹介します。
a) シーンを3つのハッシュテーブルデータ構造に分解し,静的,動的,遠方フィールドの放射場を効率的にエンコードする。
b) RGB画像, スパースLiDAR, 市販の自己監督型2Dディスクリプタ, そして最も重要な2D光流からなる未ラベルターゲット信号を利用する。
このような入力を測光的、幾何学的、特徴的再構成損失によって操作することで、SUDSは動的シーンを静的な背景、個々のオブジェクト、それらの動きに分解することができる。
マルチブランチのテーブル表現と組み合わせることで、1700本の動画から120万フレームにまたがる何万ものオブジェクトにスケールできるのです。
本研究では,動的都市シーンの新しい視点合成,教師なし3dインスタンスセグメンテーション,教師なし3d立方体検出など,様々なタスクについて質的初期結果を示す。
また,KITTIとVirtual KITTI 2についても,トレーニングの10倍の速さで3D境界ボックスアノテーションに依存する最先端の手法を超越した評価を行った。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Dynamic 3D Gaussian Fields for Urban Areas [60.64840836584623]
大規模でダイナミックな都市部における新規ビュー合成(NVS)のための効率的なニューラル3Dシーン表現法を提案する。
本研究では,大規模都市にスケールするニューラルネットワークシーン表現である4DGFを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:39Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:07:31Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。