論文の概要: GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2411.12452v1
- Date: Tue, 19 Nov 2024 12:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:33.296303
- Title: GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving
- Title(参考訳): Gaussian Pretrain: 自律運転における視覚前訓練のための簡易な3次元ガウス表現
- Authors: Shaoqing Xu, Fang Li, Shengyin Jiang, Ziying Song, Li Liu, Zhi-xin Yang,
- Abstract要約: 本稿では,自律運転のための視覚前訓練のための新しい事前訓練パラダイムであるGaussian Pretrainを紹介する。
本手法は,シーンのより深い理解を学習し,詳細な空間構造とテクスチャで事前学習性能を向上させる。
我々は,複数の3次元知覚タスクにおけるガウスプレトレインの有効性を実証し,大幅な性能向上を示した。
- 参考スコア(独自算出の注目度): 10.002167960765137
- License:
- Abstract: Self-supervised learning has made substantial strides in image processing, while visual pre-training for autonomous driving is still in its infancy. Existing methods often focus on learning geometric scene information while neglecting texture or treating both aspects separately, hindering comprehensive scene understanding. In this context, we are excited to introduce GaussianPretrain, a novel pre-training paradigm that achieves a holistic understanding of the scene by uniformly integrating geometric and texture representations. Conceptualizing 3D Gaussian anchors as volumetric LiDAR points, our method learns a deepened understanding of scenes to enhance pre-training performance with detailed spatial structure and texture, achieving that 40.6% faster than NeRF-based method UniPAD with 70% GPU memory only. We demonstrate the effectiveness of GaussianPretrain across multiple 3D perception tasks, showing significant performance improvements, such as a 7.05% increase in NDS for 3D object detection, boosts mAP by 1.9% in HD map construction and 0.8% improvement on Occupancy prediction. These significant gains highlight GaussianPretrain's theoretical innovation and strong practical potential, promoting visual pre-training development for autonomous driving. Source code will be available at https://github.com/Public-BOTs/GaussianPretrain
- Abstract(参考訳): 自己教師型学習は画像処理において大きな進歩を遂げている一方、自律運転のための視覚的事前学習はまだ初期段階にある。
既存の手法は、テクスチャを無視したり、両方の側面を別々に扱ったりしながら、幾何学的なシーン情報を学ぶことに集中し、総合的なシーン理解を妨げることが多い。
この文脈では、幾何学的・テクスチャ的表現を統一的に統合することで、シーンの全体的理解を実現する新しい事前学習パラダイムであるGaussianPretrainを導入することにワクワクしています。
3DガウスアンカーをボリュームLiDARポイントとして概念化し,より詳細な空間構造とテクスチャで事前学習性能を向上させるためにシーンの深い理解を学習し,GPUメモリの70%しか持たないNeRFベースのUniPADよりも40.6%高速であることを示す。
我々は,複数の3次元知覚タスクにおけるガウスプレトレインの有効性を実証し,3次元物体検出におけるNDSの7.05%増加,HDマップ構築におけるmAPの1.9%向上,占領率予測における0.8%向上など,大幅な性能向上を示した。
これらの大きな成果は、ガウシアン・プレトレインの理論的革新と強力な実用可能性を強調し、自律運転のための視覚前訓練開発を促進する。
ソースコードはhttps://github.com/Public-BOTs/GaussianPretrainで入手できる。
関連論文リスト
- PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。
また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。
我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。