論文の概要: GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2411.12452v1
- Date: Tue, 19 Nov 2024 12:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:33.296303
- Title: GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving
- Title(参考訳): Gaussian Pretrain: 自律運転における視覚前訓練のための簡易な3次元ガウス表現
- Authors: Shaoqing Xu, Fang Li, Shengyin Jiang, Ziying Song, Li Liu, Zhi-xin Yang,
- Abstract要約: 本稿では,自律運転のための視覚前訓練のための新しい事前訓練パラダイムであるGaussian Pretrainを紹介する。
本手法は,シーンのより深い理解を学習し,詳細な空間構造とテクスチャで事前学習性能を向上させる。
我々は,複数の3次元知覚タスクにおけるガウスプレトレインの有効性を実証し,大幅な性能向上を示した。
- 参考スコア(独自算出の注目度): 10.002167960765137
- License:
- Abstract: Self-supervised learning has made substantial strides in image processing, while visual pre-training for autonomous driving is still in its infancy. Existing methods often focus on learning geometric scene information while neglecting texture or treating both aspects separately, hindering comprehensive scene understanding. In this context, we are excited to introduce GaussianPretrain, a novel pre-training paradigm that achieves a holistic understanding of the scene by uniformly integrating geometric and texture representations. Conceptualizing 3D Gaussian anchors as volumetric LiDAR points, our method learns a deepened understanding of scenes to enhance pre-training performance with detailed spatial structure and texture, achieving that 40.6% faster than NeRF-based method UniPAD with 70% GPU memory only. We demonstrate the effectiveness of GaussianPretrain across multiple 3D perception tasks, showing significant performance improvements, such as a 7.05% increase in NDS for 3D object detection, boosts mAP by 1.9% in HD map construction and 0.8% improvement on Occupancy prediction. These significant gains highlight GaussianPretrain's theoretical innovation and strong practical potential, promoting visual pre-training development for autonomous driving. Source code will be available at https://github.com/Public-BOTs/GaussianPretrain
- Abstract(参考訳): 自己教師型学習は画像処理において大きな進歩を遂げている一方、自律運転のための視覚的事前学習はまだ初期段階にある。
既存の手法は、テクスチャを無視したり、両方の側面を別々に扱ったりしながら、幾何学的なシーン情報を学ぶことに集中し、総合的なシーン理解を妨げることが多い。
この文脈では、幾何学的・テクスチャ的表現を統一的に統合することで、シーンの全体的理解を実現する新しい事前学習パラダイムであるGaussianPretrainを導入することにワクワクしています。
3DガウスアンカーをボリュームLiDARポイントとして概念化し,より詳細な空間構造とテクスチャで事前学習性能を向上させるためにシーンの深い理解を学習し,GPUメモリの70%しか持たないNeRFベースのUniPADよりも40.6%高速であることを示す。
我々は,複数の3次元知覚タスクにおけるガウスプレトレインの有効性を実証し,3次元物体検出におけるNDSの7.05%増加,HDマップ構築におけるmAPの1.9%向上,占領率予測における0.8%向上など,大幅な性能向上を示した。
これらの大きな成果は、ガウシアン・プレトレインの理論的革新と強力な実用可能性を強調し、自律運転のための視覚前訓練開発を促進する。
ソースコードはhttps://github.com/Public-BOTs/GaussianPretrainで入手できる。
関連論文リスト
- GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
本稿では,ガウス変換器であるガウスTRを導入し,自己教師付き3次元空間理解を推し進める。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能が示されている。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光現実性シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する重要な能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
私たちは、自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開しました。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。