論文の概要: 3D StreetUnveiler with Semantic-Aware 2DGS
- arxiv url: http://arxiv.org/abs/2405.18416v2
- Date: Thu, 30 May 2024 11:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 12:40:32.414982
- Title: 3D StreetUnveiler with Semantic-Aware 2DGS
- Title(参考訳): セマンティック2DGSを用いた3Dストリートアンベイラー
- Authors: Jingwei Xu, Yikai Wang, Yiqun Zhao, Yanwei Fu, Shenghua Gao,
- Abstract要約: StreetUnveilerは、混雑した観察から空の通りの3D表現を学習する。
空の街路シーンを、観察された、部分的に観察された、保存されていない領域に分割する。
街路景観データセットを用いた実験により, 空き路の3次元表現の再構築に成功した。
- 参考スコア(独自算出の注目度): 66.90611944550392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unveiling an empty street from crowded observations captured by in-car cameras is crucial for autonomous driving. However, removing all temporarily static objects, such as stopped vehicles and standing pedestrians, presents a significant challenge. Unlike object-centric 3D inpainting, which relies on thorough observation in a small scene, street scene cases involve long trajectories that differ from previous 3D inpainting tasks. The camera-centric moving environment of captured videos further complicates the task due to the limited degree and time duration of object observation. To address these obstacles, we introduce StreetUnveiler to reconstruct an empty street. StreetUnveiler learns a 3D representation of the empty street from crowded observations. Our representation is based on the hard-label semantic 2D Gaussian Splatting (2DGS) for its scalability and ability to identify Gaussians to be removed. We inpaint rendered image after removing unwanted Gaussians to provide pseudo-labels and subsequently re-optimize the 2DGS. Given its temporal continuous movement, we divide the empty street scene into observed, partial-observed, and unobserved regions, which we propose to locate through a rendered alpha map. This decomposition helps us to minimize the regions that need to be inpainted. To enhance the temporal consistency of the inpainting, we introduce a novel time-reversal framework to inpaint frames in reverse order and use later frames as references for earlier frames to fully utilize the long-trajectory observations. Our experiments conducted on the street scene dataset successfully reconstructed a 3D representation of the empty street. The mesh representation of the empty street can be extracted for further applications. The project page and more visualizations can be found at: https://streetunveiler.github.io
- Abstract(参考訳): 車載カメラが捉えた混雑した観察から空の道を開くことは、自動運転にとって非常に重要です。
しかし、停止した車や歩行者など、一時的に静的な物体をすべて取り除くことは、大きな課題である。
小さなシーンで徹底的に観察するオブジェクト中心の3Dインペイントとは異なり、ストリートシーンのケースは従来の3Dインペイントと異なる長い軌跡を含む。
撮影ビデオのカメラ中心の移動環境は、被写体観察の時間と程度に制限があるため、タスクをさらに複雑にする。
これらの障害に対処するため、空の道路を再建するためにStreetUnveilerを導入する。
StreetUnveilerは、混雑した観察から空の通りの3D表現を学習する。
我々の表現は、そのスケーラビリティと除去すべきガウスを識別する能力のために、2DGS (hard-label semantic 2D Gaussian Splatting) に基づいている。
不要なガウスを除去し,擬似ラベルを提供し,その後2DGSを再最適化した。
時間的連続的な動きを考慮し、空の街路シーンを観測された部分観測領域と観測されていない領域に分割し、レンダリングされたアルファマップを通して位置を特定することを提案する。
この分解は、塗装が必要な領域を最小化するのに役立ちます。
塗布の時間的一貫性を高めるため,フレームを逆順に塗布する新しい時間反転フレームワークを導入し,後続フレームを先行フレームの参照として使用し,長い軌道観測を十分に活用する。
本実験は,空き街路の3次元表現の再構築に成功している。
空の通りのメッシュ表現は、さらなる応用のために抽出することができる。
プロジェクトページとより詳細な情報は、https://streetunveiler.github.io.com/com/com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s
関連論文リスト
- $\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving [82.82048452755394]
光リアルなストリートシーンの3D再構成は、現実の自動運転シミュレータを開発する上で重要な技術である。
既存のストリート3DGS法の多くは、静的および動的要素を分解するために、トラックされた3D車両バウンディングボックスを必要とする。
動的および静的な要素を4次元整合性から分解する自己教師付きストリートガウス(textitS3$Gaussian)手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:57:08Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - NeRFiller: Completing Scenes via Generative 3D Inpainting [113.18181179986172]
生成3Dインパインティングによる3Dキャプチャの欠落部分を解消する手法であるNeRFillerを提案する。
関連する作品とは対照的に、前景のオブジェクトを削除するのではなく、シーンの完成に重点を置いている。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Animating Street View [14.203239158327]
本研究では,自然に行動する歩行者や車両で街路ビュー画像を自動的に生かし,生活に届けるシステムを提案する。
我々のアプローチは、既存の人々や車両を入力画像から取り除き、適切なスケール、角度、動き、外観、計画経路、交通行動で動く物体を挿入することである。
我々は,通常の静止画やパノラマを含む様々なストリートシーンで,その結果を実演する。
論文 参考訳(メタデータ) (2023-10-12T17:24:05Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural
Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。
本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。
我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2022-11-22T13:14:50Z) - DVI: Depth Guided Video Inpainting for Autonomous Driving [35.94330601020169]
本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
論文 参考訳(メタデータ) (2020-07-17T09:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。