論文の概要: UniGaussian: Driving Scene Reconstruction from Multiple Camera Models via Unified Gaussian Representations
- arxiv url: http://arxiv.org/abs/2411.15355v1
- Date: Fri, 22 Nov 2024 21:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:45.344937
- Title: UniGaussian: Driving Scene Reconstruction from Multiple Camera Models via Unified Gaussian Representations
- Title(参考訳): UniGaussian: 統一ガウス表現による複数カメラモデルからのシーン再構築
- Authors: Yuan Ren, Guile Wu, Runhao Li, Zheyuan Yang, Yibo Liu, Xingxin Chen, Tongtong Cao, Bingbing Liu,
- Abstract要約: 運転シーンで魚眼カメラを効果的にシミュレートする方法は、未解決の問題である。
複数のカメラモデルから統一された3次元ガウス表現を学習する新しいアプローチであるUniGaussianを提案する。
我々のアプローチは、複数のセンサー(ピンホールと魚眼カメラ)とモード(深度、意味、正常、LiDAR点雲)をモデル化する。
- 参考スコア(独自算出の注目度): 23.346765633086452
- License:
- Abstract: Urban scene reconstruction is crucial for real-world autonomous driving simulators. Although existing methods have achieved photorealistic reconstruction, they mostly focus on pinhole cameras and neglect fisheye cameras. In fact, how to effectively simulate fisheye cameras in driving scene remains an unsolved problem. In this work, we propose UniGaussian, a novel approach that learns a unified 3D Gaussian representation from multiple camera models for urban scene reconstruction in autonomous driving. Our contributions are two-fold. First, we propose a new differentiable rendering method that distorts 3D Gaussians using a series of affine transformations tailored to fisheye camera models. This addresses the compatibility issue of 3D Gaussian splatting with fisheye cameras, which is hindered by light ray distortion caused by lenses or mirrors. Besides, our method maintains real-time rendering while ensuring differentiability. Second, built on the differentiable rendering method, we design a new framework that learns a unified Gaussian representation from multiple camera models. By applying affine transformations to adapt different camera models and regularizing the shared Gaussians with supervision from different modalities, our framework learns a unified 3D Gaussian representation with input data from multiple sources and achieves holistic driving scene understanding. As a result, our approach models multiple sensors (pinhole and fisheye cameras) and modalities (depth, semantic, normal and LiDAR point clouds). Our experiments show that our method achieves superior rendering quality and fast rendering speed for driving scene simulation.
- Abstract(参考訳): 都市景観の再構築は、現実の自動運転シミュレーターにとって不可欠である。
既存の方法は写実的な再構築を実現しているが、主にピンホールカメラと魚眼カメラの無視に焦点を当てている。
実際、運転シーンで魚眼カメラを効果的にシミュレートする方法は未解決の問題だ。
本研究では,複数のカメラモデルから3次元ガウス表現を学習し,都市景観を自動走行で再現する手法であるUniGaussianを提案する。
私たちの貢献は2倍です。
まず,魚眼カメラモデルに適した一連のアフィン変換を用いて3次元ガウスを歪曲する新しい微分可能レンダリング手法を提案する。
このことは、魚眼カメラによる3Dガウススティングの互換性の問題に対処し、レンズや鏡による光線歪みによって妨げられる。
さらに,本手法はリアルタイムなレンダリングを維持しながら,識別性を確保している。
第2に、微分可能レンダリング法に基づいて、複数のカメラモデルからガウス表現を統一的に学習する新しいフレームワークを設計する。
異なるカメラモデルにアフィン変換を適用し、異なるモダリティからの監督で共有ガウスを正規化することにより、複数のソースからの入力データで統一された3Dガウス表現を学習し、総合的な駆動シーン理解を実現する。
その結果、我々は複数のセンサー(ピンホールと魚眼カメラ)とモード(深度、セマンティック、正常、LiDAR点雲)をモデル化した。
実験により,本手法はシーンシミュレーションの高速化に優れたレンダリング品質と高速レンダリングを実現することを示す。
関連論文リスト
- Scaffold-SLAM: Structured 3D Gaussians for Simultaneous Localization and Photorealistic Mapping [0.0]
モノクロ,ステレオ,RGB-Dカメラ間の同時ローカライズと高品質な光リアルマッピングを実現するScaffold-SLAMを提案する。
まず,3次元ガウスアンによる様々なカメラポーズにおける画像の外観変化のモデル化を可能にする。
第二に、ガウス分布を導くために周波数正規化ピラミッドを導入し、モデルがシーンの細部を効果的に捉えることを可能にする。
論文 参考訳(メタデータ) (2025-01-09T13:50:26Z) - EMD: Explicit Motion Modeling for High-Quality Street Gaussian Splatting [22.590036750925627]
ストリートシーンの光現実的再構築は、自動運転における実世界のシミュレータの開発に不可欠である。
3D/4Dガウス散乱(GS)に基づく最近の手法は有望な結果を示したが、動的物体の予測不可能な動きのため、複雑な街路シーンではまだ課題に直面している。
本稿では,ガウス人に学習可能な動作埋め込みを導入することで,動的物体の運動をモデル化するEMD(Explicit Motion Decomposition)を提案する。
論文 参考訳(メタデータ) (2024-11-23T15:10:04Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - DC-Gaussian: Improving 3D Gaussian Splatting for Reflective Dash Cam Videos [23.967885144420613]
本稿では,車載ダッシュカムビデオから新しいビューを生成する手法であるDC-Gaussianを提案する。
本手法は,新規なビュー合成における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-27T23:38:10Z) - Z-Splat: Z-Axis Gaussian Splatting for Camera-Sonar Fusion [20.464224937528222]
3Dシーンを再構成するためのコンピュータビジョンとグラフィックにおいて、微分可能な3D-ガウススプラッティング(GS)が顕著な技術として登場している。
GSはよく知られた「抜ける円錐」問題に悩まされており、深さ軸に沿った再建が不十分である。
RGBカメラデータとソナーデータを同時に利用する融合アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-06T17:23:43Z) - BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting [8.380954205255104]
BAD-Gaussianは、不正確なカメラのポーズで、激しい動きをブラインドした画像を処理するための新しいアプローチである。
提案手法は,従来の最先端のデブルーニューラルレンダリング手法と比較して,優れたレンダリング品質を実現する。
論文 参考訳(メタデータ) (2024-03-18T14:43:04Z) - DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes [57.12439406121721]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。
動くオブジェクトを持つ複雑なシーンでは、まずシーン全体の静的な背景を逐次、段階的にモデル化します。
次に、複合動的ガウスグラフを利用して、複数の移動物体を処理する。
我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。
論文 参考訳(メタデータ) (2023-12-13T06:30:51Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。