論文の概要: Street Gaussians for Modeling Dynamic Urban Scenes
- arxiv url: http://arxiv.org/abs/2401.01339v1
- Date: Tue, 2 Jan 2024 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 13:14:58.481385
- Title: Street Gaussians for Modeling Dynamic Urban Scenes
- Title(参考訳): 動的都市景観のモデル化のための街路ガウス
- Authors: Yunzhi Yan, Haotong Lin, Chenxu Zhou, Weijie Wang, Haiyang Sun, Kun
Zhan, Xianpeng Lang, Xiaowei Zhou, Sida Peng
- Abstract要約: 近年の手法では、車両のアニメーション化に追従した車両のポーズを取り入れてNeRFを拡張し、ダイナミックな街路シーンのリアルなビュー合成を可能にしている。
私たちは、これらの制限に対処する新しい明示的なシーン表現であるStreet Gaussiansを紹介します。
提案手法は,全データセットで常に最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 33.824807872906575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to tackle the problem of modeling dynamic urban street scenes
from monocular videos. Recent methods extend NeRF by incorporating tracked
vehicle poses to animate vehicles, enabling photo-realistic view synthesis of
dynamic urban street scenes. However, significant limitations are their slow
training and rendering speed, coupled with the critical need for high precision
in tracked vehicle poses. We introduce Street Gaussians, a new explicit scene
representation that tackles all these limitations. Specifically, the dynamic
urban street is represented as a set of point clouds equipped with semantic
logits and 3D Gaussians, each associated with either a foreground vehicle or
the background. To model the dynamics of foreground object vehicles, each
object point cloud is optimized with optimizable tracked poses, along with a
dynamic spherical harmonics model for the dynamic appearance. The explicit
representation allows easy composition of object vehicles and background, which
in turn allows for scene editing operations and rendering at 133 FPS
(1066$\times$1600 resolution) within half an hour of training. The proposed
method is evaluated on multiple challenging benchmarks, including KITTI and
Waymo Open datasets. Experiments show that the proposed method consistently
outperforms state-of-the-art methods across all datasets. Furthermore, the
proposed representation delivers performance on par with that achieved using
precise ground-truth poses, despite relying only on poses from an off-the-shelf
tracker. The code is available at https://zju3dv.github.io/street_gaussians/.
- Abstract(参考訳): 本稿では,都会の街並みを単眼映像からモデル化する問題に取り組むことを目的としている。
近年の手法では、車両のアニメーション化に追従した車両のポーズを取り入れてNeRFを拡張し、ダイナミックな街路シーンのリアルなビュー合成を可能にしている。
しかしながら、その低速なトレーニングとレンダリング速度と、トラックされた車両のポーズにおける高精度さの必要性が大きな制限となっている。
私たちは、これらの制限に対処する新しい明示的なシーン表現であるStreet Gaussiansを紹介します。
具体的には、ダイナミック・アーバン・ストリートは、セマンティクス・ロジットと3dガウシアンを備えた点雲の集合として表現され、それぞれが前景の車両または背景に関連付けられている。
前景物体車の動力学をモデル化するために、各物体点雲は、動的外観のための動的球面調和モデルと共に、最適化可能なトラックポーズで最適化される。
明示的な表現は、オブジェクト車両と背景の簡単な合成を可能にし、30分以内のトレーニングで133 FPS (1066$\times$1600 resolution)でのシーン編集操作とレンダリングを可能にする。
提案手法は,kitti と waymo open datasets を含む複数の挑戦ベンチマークで評価した。
実験により,提案手法は,すべてのデータセットにまたがる最先端手法を一貫して上回ることがわかった。
さらに,提案した表現は,市販のトラッカーのポーズにのみ依存するにも関わらず,正確な接地ポーズを用いて達成した結果と同等の性能を提供する。
コードはhttps://zju3dv.github.io/street_gaussians/で入手できる。
関連論文リスト
- DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic
Autonomous Driving Scenes [60.52991173059486]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。
移動物体を持つ複雑なシーンでは、まずシーン全体の静的背景をインクリメンタルな静的な3Dガウスアンで逐次、段階的にモデル化する。
次に、複合動的ガウスグラフを利用して複数の移動物体を扱い、各物体を個別に再構成し、正確な位置を復元する。
論文 参考訳(メタデータ) (2023-12-13T06:30:51Z) - Video Killed the HD-Map: Predicting Multi-Agent Behavior Directly From
Aerial Images [14.689298253430568]
本稿では,最小限のアノテーションを必要とする航空画像ベースマップ(AIM)の表現を提案し,歩行者や車両などの交通機関に道路状況情報を提供する。
以上の結果から,特にAIM表現を用いた歩行者の競合的マルチエージェント軌道予測性能が示された。
論文 参考訳(メタデータ) (2023-05-19T17:48:01Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Model-Based Imitation Learning for Urban Driving [26.782783239210087]
MILE: 世界のモデルと自律運転のポリシーを共同で学習するためのモデルに基づくImitation LEarningアプローチを提案する。
本モデルでは, 都市運転データのオフラインコーパスを用いて, 環境とのオンラインインタラクションを伴わない訓練を行った。
我々のアプローチは、都市運転環境における静的シーン、ダイナミックシーン、エゴビヘイビアをモデル化する最初のカメラのみの手法である。
論文 参考訳(メタデータ) (2022-10-14T11:59:46Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z) - Recovering and Simulating Pedestrians in the Wild [81.38135735146015]
本研究では,自動車の走行によって野生で捕獲されたセンサから歩行者の形状と動きを復元することを提案する。
再建された歩行者資産銀行をリアルな3Dシミュレーションシステムに組み込む。
シミュレーションしたLiDARデータを用いて,視覚知覚タスクに必要な実世界のデータ量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-11-16T17:16:32Z) - Any Motion Detector: Learning Class-agnostic Scene Dynamics from a
Sequence of LiDAR Point Clouds [4.640835690336654]
動き検出と動きパラメータ推定のための時間的文脈アグリゲーションの新しいリアルタイム手法を提案する。
本稿では,固有点雲列の固有オドメトリック変換に匹敵する性能で,リアルタイムな推論を実現するためのエゴモーション補償層を提案する。
論文 参考訳(メタデータ) (2020-04-24T10:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。