論文の概要: SUDS: Scalable Urban Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2303.14536v1
- Date: Sat, 25 Mar 2023 18:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:05:38.825835
- Title: SUDS: Scalable Urban Dynamic Scenes
- Title(参考訳): SUDS: スケーラブルな都市ダイナミックシーン
- Authors: Haithem Turki, Jason Y. Zhang, Francesco Ferroni, Deva Ramanan
- Abstract要約: 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
- 参考スコア(独自算出の注目度): 46.965165390077146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend neural radiance fields (NeRFs) to dynamic large-scale urban scenes.
Prior work tends to reconstruct single video clips of short durations (up to 10
seconds). Two reasons are that such methods (a) tend to scale linearly with the
number of moving objects and input videos because a separate model is built for
each and (b) tend to require supervision via 3D bounding boxes and panoptic
labels, obtained manually or via category-specific models. As a step towards
truly open-world reconstructions of dynamic cities, we introduce two key
innovations: (a) we factorize the scene into three separate hash table data
structures to efficiently encode static, dynamic, and far-field radiance
fields, and (b) we make use of unlabeled target signals consisting of RGB
images, sparse LiDAR, off-the-shelf self-supervised 2D descriptors, and most
importantly, 2D optical flow.
Operationalizing such inputs via photometric, geometric, and feature-metric
reconstruction losses enables SUDS to decompose dynamic scenes into the static
background, individual objects, and their motions. When combined with our
multi-branch table representation, such reconstructions can be scaled to tens
of thousands of objects across 1.2 million frames from 1700 videos spanning
geospatial footprints of hundreds of kilometers, (to our knowledge) the largest
dynamic NeRF built to date.
We present qualitative initial results on a variety of tasks enabled by our
representations, including novel-view synthesis of dynamic urban scenes,
unsupervised 3D instance segmentation, and unsupervised 3D cuboid detection. To
compare to prior work, we also evaluate on KITTI and Virtual KITTI 2,
surpassing state-of-the-art methods that rely on ground truth 3D bounding box
annotations while being 10x quicker to train.
- Abstract(参考訳): 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
以前の作業では、短い期間(最大10秒)の単一のビデオクリップを再構築する傾向がある。
そのような方法が2つの理由
(a)個別のモデルが構築されているため、移動物体数や入力映像数と線形にスケールする傾向がある。
b) 手動またはカテゴリー別モデルを用いて取得した3Dバウンディングボックスやパノプティカルラベルによる監視を必要とする傾向にある。
ダイナミックシティの真のオープンワールド再構築に向けたステップとして,2つの重要なイノベーションを紹介します。
a) シーンを3つのハッシュテーブルデータ構造に分解し,静的,動的,遠方フィールドの放射場を効率的にエンコードする。
b) RGB画像, スパースLiDAR, 市販の自己監督型2Dディスクリプタ, そして最も重要な2D光流からなる未ラベルターゲット信号を利用する。
このような入力を測光的、幾何学的、特徴的再構成損失によって操作することで、SUDSは動的シーンを静的な背景、個々のオブジェクト、それらの動きに分解することができる。
マルチブランチのテーブル表現と組み合わせることで、1700本の動画から120万フレームにまたがる何万ものオブジェクトにスケールできるのです。
本研究では,動的都市シーンの新しい視点合成,教師なし3dインスタンスセグメンテーション,教師なし3d立方体検出など,様々なタスクについて質的初期結果を示す。
また,KITTIとVirtual KITTI 2についても,トレーニングの10倍の速さで3D境界ボックスアノテーションに依存する最先端の手法を超越した評価を行った。
関連論文リスト
- HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:07:31Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。