論文の概要: MapGS: Generalizable Pretraining and Data Augmentation for Online Mapping via Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2501.06660v1
- Date: Sat, 11 Jan 2025 23:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:22:32.659318
- Title: MapGS: Generalizable Pretraining and Data Augmentation for Online Mapping via Novel View Synthesis
- Title(参考訳): MapGS:新しいビュー合成によるオンラインマッピングのための一般化可能な事前学習とデータ拡張
- Authors: Hengyuan Zhang, David Paz, Yuliang Guo, Xinyu Huang, Henrik I. Christensen, Liu Ren,
- Abstract要約: 本稿では,ガウシアンスプラッティングを利用してシーンを再構成し,カメライメージをターゲットセンサ構成に描画する新しいフレームワークを提案する。
提案する nuScenes と Argoverse 2 データセットのフレームワークは,効率的なデータセット拡張による18%の性能向上を示す。
これにより、データの再利用が可能になり、面倒なデータラベリングの必要性が軽減される。
- 参考スコア(独自算出の注目度): 15.64243217749911
- License:
- Abstract: Online mapping reduces the reliance of autonomous vehicles on high-definition (HD) maps, significantly enhancing scalability. However, recent advancements often overlook cross-sensor configuration generalization, leading to performance degradation when models are deployed on vehicles with different camera intrinsics and extrinsics. With the rapid evolution of novel view synthesis methods, we investigate the extent to which these techniques can be leveraged to address the sensor configuration generalization challenge. We propose a novel framework leveraging Gaussian splatting to reconstruct scenes and render camera images in target sensor configurations. The target config sensor data, along with labels mapped to the target config, are used to train online mapping models. Our proposed framework on the nuScenes and Argoverse 2 datasets demonstrates a performance improvement of 18% through effective dataset augmentation, achieves faster convergence and efficient training, and exceeds state-of-the-art performance when using only 25% of the original training data. This enables data reuse and reduces the need for laborious data labeling. Project page at https://henryzhangzhy.github.io/mapgs.
- Abstract(参考訳): オンラインマッピングは、高精細(HD)マップへの自動運転車の依存を低減し、スケーラビリティを著しく向上させる。
しかし、近年の進歩は、クロスセンサー構成の一般化を見落とし、異なるカメラ内在と外因性を持つ車両にモデルが配置されると、性能が低下する。
新規なビュー合成手法の急速な進化により,センサ構成の一般化問題に対処するために,これらの技術がどの程度活用できるかを考察する。
本稿では,ガウシアンスプラッティングを利用してシーンを再構成し,カメライメージをターゲットセンサ構成に描画する新しいフレームワークを提案する。
ターゲット設定センサーデータは、ターゲット設定にマッピングされたラベルとともに、オンラインマッピングモデルのトレーニングに使用される。
提案した nuScenes および Argoverse 2 データセットのフレームワークは,効率的なデータセット拡張による18%の性能向上を示し,より高速な収束と効率的なトレーニングを実現し,元のトレーニングデータの25%しか使用していない場合の最先端性能を上回る性能を示した。
これにより、データの再利用が可能になり、面倒なデータラベリングの必要性が軽減される。
プロジェクトページはhttps://henryzhangzhy.github.io/mapgs.com。
関連論文リスト
- Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models [4.910937238451485]
本稿では,合成顔画像のリアリズム向上を目的とした,リアリズム伝達のための新しいフレームワークを提案する。
グラフィクスパイプラインの制御可能な側面とリアリズム強化技術を統合することで、我々は大量のリアルなバリエーションを生成する。
論文 参考訳(メタデータ) (2024-11-04T15:42:22Z) - SemVecNet: Generalizable Vector Map Generation for Arbitrary Sensor Configurations [3.8472678261304587]
センサ構成への一般化を改善したベクトルマップ生成のためのモジュールパイプラインを提案する。
センサ構成に頑健なBEVセマンティックマップを採用することにより,提案手法は一般化性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-30T23:45:16Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。
私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文 参考訳(メタデータ) (2022-10-19T17:58:17Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。