論文の概要: Extrapolated Urban View Synthesis Benchmark
- arxiv url: http://arxiv.org/abs/2412.05256v1
- Date: Fri, 06 Dec 2024 18:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:55.073264
- Title: Extrapolated Urban View Synthesis Benchmark
- Title(参考訳): 都市景観合成ベンチマーク
- Authors: Xiangyu Han, Zhen Jia, Boyi Li, Yan Wang, Boris Ivanovic, Yurong You, Lingjie Liu, Yue Wang, Marco Pavone, Chen Feng, Yiming Li,
- Abstract要約: 光現実性シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する重要な能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
私たちは、自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開しました。
- 参考スコア(独自算出の注目度): 53.657271730352214
- License:
- Abstract: Photorealistic simulators are essential for the training and evaluation of vision-centric autonomous vehicles (AVs). At their core is Novel View Synthesis (NVS), a crucial capability that generates diverse unseen viewpoints to accommodate the broad and continuous pose distribution of AVs. Recent advances in radiance fields, such as 3D Gaussian Splatting, achieve photorealistic rendering at real-time speeds and have been widely used in modeling large-scale driving scenes. However, their performance is commonly evaluated using an interpolated setup with highly correlated training and test views. In contrast, extrapolation, where test views largely deviate from training views, remains underexplored, limiting progress in generalizable simulation technology. To address this gap, we leverage publicly available AV datasets with multiple traversals, multiple vehicles, and multiple cameras to build the first Extrapolated Urban View Synthesis (EUVS) benchmark. Meanwhile, we conduct quantitative and qualitative evaluations of state-of-the-art Gaussian Splatting methods across different difficulty levels. Our results show that Gaussian Splatting is prone to overfitting to training views. Besides, incorporating diffusion priors and improving geometry cannot fundamentally improve NVS under large view changes, highlighting the need for more robust approaches and large-scale training. We have released our data to help advance self-driving and urban robotics simulation technology.
- Abstract(参考訳): 光実写シミュレータは、視覚中心型自動運転車(AV)の訓練と評価に不可欠である。
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する重要な能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
しかし、それらの性能は、高度に相関したトレーニングとテストビューを備えた補間された設定を用いて、一般的に評価される。
対照的に、テストビューがトレーニングビューから大きく逸脱する外挿は、一般化可能なシミュレーション技術の進歩を制限し、未探索のままである。
このギャップに対処するために、複数のトラバーサル、複数の車両、複数のカメラを備えた公開可能なAVデータセットを活用して、最初のEUVS(Extrapolated Urban View Synthesis)ベンチマークを構築しました。
一方,我々は,様々な難易度にわたって,最先端のガウススプラッティング手法の定量的,定性的な評価を行う。
以上の結果から,ガウシアン・スプラッティングはトレーニングの視点に過度に適合する傾向が示唆された。
さらに、拡散事前の導入や幾何学的改善は、大きなビュー変更の下でNVSを根本的に改善することができず、より堅牢なアプローチと大規模トレーニングの必要性を強調している。
私たちは、自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開しました。
関連論文リスト
- SplatFormer: Point Transformer for Robust 3D Gaussian Splatting [18.911307036504827]
3D Gaussian Splatting (3DGS) は、近ごろ光現実的再構成を変換し、高い視覚的忠実度とリアルタイム性能を実現した。
レンダリング品質は、テストビューがトレーニング中に使用されるカメラアングルから逸脱したときに著しく低下し、没入型自由視点レンダリングとナビゲーションのアプリケーションにとって大きな課題となった。
SplatFormerは,ガウススプラット上での操作に特化して設計された最初の点変換器モデルである。
我々のモデルは、非常に斬新なビュー下でのレンダリング品質を著しく改善し、これらの難易度シナリオにおける最先端のパフォーマンスを達成し、様々な3DGS正規化技術、スパースビュー合成に適したマルチシーンモデル、拡散を上回ります。
論文 参考訳(メタデータ) (2024-11-10T08:23:27Z) - Drone-assisted Road Gaussian Splatting with Cross-view Uncertainty [10.37108303188536]
3D Gaussian Splatting (3D-GS)は、ニューラルレンダリングにおいて画期的な進歩を遂げた。
大規模な道路シーンレンダリングの一般的な忠実度は、入力画像によって制限されることが多い。
カービューのアンサンブルに基づくレンダリングの不確実性と空中画像とのマッチングにより、3D-GSにクロスビューの不確実性を導入する。
論文 参考訳(メタデータ) (2024-08-27T17:59:55Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。