論文の概要: STELLAR: Scaling 3D Perception Large Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.20390v1
- Date: Tue, 19 May 2026 18:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.326682
- Title: STELLAR: Scaling 3D Perception Large Models for Autonomous Driving
- Title(参考訳): STELLAR: 自動運転のための3次元知覚大モデルのスケーリング
- Authors: Yingwei Li, Xin Huang, Yang Liu, Yang Fu, Alex Zihao Zhu, Chen Song, Junwen Yao, Anant Subramanian, Hao Xiang, Weijing Shi, Yuliang Zou, Tom Hoddes, Zhaoqi Leng, Govind Thattai, Dragomir Anguelov, Mingxing Tan,
- Abstract要約: 我々は,Sparse Window TransformerをベースとしたSTELLARモデルを開発し,LiDAR,レーダー,カメラ,マップなどを含む入力モードを拡張した。
最大5億のパラメータを持つ5000万の運転例の大規模データセットでモデルをトレーニングする。
我々の研究は、大規模トレーニングが自律運転のための知覚モデルの能力を向上させるための非常に有望な道であることを実証している。
- 参考スコア(独自算出の注目度): 38.138694493703504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model scaling has demonstrated remarkable success through large-scale training on diverse datasets. It remains an open question whether the same paradigm would apply to autonomous driving perception systems due to unique challenges, such as fusing heterogeneous sensor data and the need for sophisticated 3D spatial understanding. To bridge this gap, we present a comprehensive study on systematically analyzing the impact of scale on these systems. We develop our STELLAR model based on Sparse Window Transformer, by extending the input modalities to include LiDAR, radar, camera, and map prior. We train the model on a large-scale dataset of 50 million driving examples with up to 500 million parameters. Our large-scale experiments reveal empirical scaling trends that connect model performance to model size, data, and compute. The resulting model establishes a new state-of-the-art on the Waymo Open Dataset challenge, outperforming prior arts by a large margin. Our work demonstrates that large-scale training is a highly promising path for advancing the capabilities of perception models for autonomous driving.
- Abstract(参考訳): モデルスケーリングは、多様なデータセットに対する大規模なトレーニングを通じて、目覚ましい成功を収めた。
異種センサデータの融合や高度な3D空間理解の必要性など,ユニークな課題のために,同じパラダイムが自律運転認識システムに適用されるかどうか,依然として疑問視されている。
このギャップを埋めるために、これらのシステムにおけるスケールの影響を体系的に分析する総合的研究を提案する。
我々は,Sparse Window TransformerをベースとしたSTELLARモデルを開発し,LiDAR,レーダー,カメラ,マップなどを含む入力モードを拡張した。
最大5億のパラメータを持つ5000万の運転例の大規模データセットでモデルをトレーニングする。
我々の大規模な実験は、モデルパフォーマンスとモデルサイズ、データ、計算を結びつける経験的なスケーリングトレンドを明らかにします。
その結果得られたモデルは、Waymo Open Datasetチャレンジで新たな最先端技術を確立し、先行技術よりも大きなマージンで上回っている。
我々の研究は、大規模トレーニングが自律運転のための知覚モデルの能力を向上させるための非常に有望な道であることを実証している。
関連論文リスト
- Self-Supervised Pre-training with Combined Datasets for 3D Perception in Autonomous Driving [46.24100810736637]
我々は、ラベルのないデータから効果的な3D表現をスクラッチから学習する自己教師付き事前学習フレームワークを導入する。
このアプローチは、3Dオブジェクト検出、BEVセグメンテーション、3Dオブジェクトトラッキング、占有率予測などの下流タスクにおけるモデルパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-04-17T07:26:11Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。