Fugu-MT 論文翻訳(概要): SUDS: Scalable Urban Dynamic Scenes

論文の概要: SUDS: Scalable Urban Dynamic Scenes

arxiv url: http://arxiv.org/abs/2303.14536v1
Date: Sat, 25 Mar 2023 18:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 19:05:38.825835
Title: SUDS: Scalable Urban Dynamic Scenes
Title（参考訳）: SUDS: スケーラブルな都市ダイナミックシーン
Authors: Haithem Turki, Jason Y. Zhang, Francesco Ferroni, Deva Ramanan
Abstract要約: 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
参考スコア（独自算出の注目度）: 46.965165390077146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We extend neural radiance fields (NeRFs) to dynamic large-scale urban scenes. Prior work tends to reconstruct single video clips of short durations (up to 10 seconds). Two reasons are that such methods (a) tend to scale linearly with the number of moving objects and input videos because a separate model is built for each and (b) tend to require supervision via 3D bounding boxes and panoptic labels, obtained manually or via category-specific models. As a step towards truly open-world reconstructions of dynamic cities, we introduce two key innovations: (a) we factorize the scene into three separate hash table data structures to efficiently encode static, dynamic, and far-field radiance fields, and (b) we make use of unlabeled target signals consisting of RGB images, sparse LiDAR, off-the-shelf self-supervised 2D descriptors, and most importantly, 2D optical flow. Operationalizing such inputs via photometric, geometric, and feature-metric reconstruction losses enables SUDS to decompose dynamic scenes into the static background, individual objects, and their motions. When combined with our multi-branch table representation, such reconstructions can be scaled to tens of thousands of objects across 1.2 million frames from 1700 videos spanning geospatial footprints of hundreds of kilometers, (to our knowledge) the largest dynamic NeRF built to date. We present qualitative initial results on a variety of tasks enabled by our representations, including novel-view synthesis of dynamic urban scenes, unsupervised 3D instance segmentation, and unsupervised 3D cuboid detection. To compare to prior work, we also evaluate on KITTI and Virtual KITTI 2, surpassing state-of-the-art methods that rely on ground truth 3D bounding box annotations while being 10x quicker to train.
Abstract（参考訳）: 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。以前の作業では、短い期間(最大10秒)の単一のビデオクリップを再構築する傾向がある。そのような方法が2つの理由 (a)個別のモデルが構築されているため、移動物体数や入力映像数と線形にスケールする傾向がある。 b) 手動またはカテゴリー別モデルを用いて取得した3Dバウンディングボックスやパノプティカルラベルによる監視を必要とする傾向にある。ダイナミックシティの真のオープンワールド再構築に向けたステップとして,2つの重要なイノベーションを紹介します。 a) シーンを3つのハッシュテーブルデータ構造に分解し,静的,動的,遠方フィールドの放射場を効率的にエンコードする。 b) RGB画像, スパースLiDAR, 市販の自己監督型2Dディスクリプタ, そして最も重要な2D光流からなる未ラベルターゲット信号を利用する。このような入力を測光的、幾何学的、特徴的再構成損失によって操作することで、SUDSは動的シーンを静的な背景、個々のオブジェクト、それらの動きに分解することができる。マルチブランチのテーブル表現と組み合わせることで、1700本の動画から120万フレームにまたがる何万ものオブジェクトにスケールできるのです。本研究では,動的都市シーンの新しい視点合成,教師なし3dインスタンスセグメンテーション,教師なし3d立方体検出など,様々なタスクについて質的初期結果を示す。また,KITTIとVirtual KITTI 2についても,トレーニングの10倍の速さで3D境界ボックスアノテーションに依存する最先端の手法を超越した評価を行った。

関連論文リスト

DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文参考訳（メタデータ） (2024-11-29T07:45:24Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-07-18T17:59:08Z)
Dynamic 3D Gaussian Fields for Urban Areas [60.64840836584623]
大規模でダイナミックな都市部における新規ビュー合成(NVS)のための効率的なニューラル3Dシーン表現法を提案する。本研究では,大規模都市にスケールするニューラルネットワークシーン表現である4DGFを提案する。
論文参考訳（メタデータ） (2024-06-05T12:07:39Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-12-11T14:07:31Z)
STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文参考訳（メタデータ） (2020-12-22T23:45:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。