論文の概要: GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.15672v1
- Date: Wed, 19 Mar 2025 20:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:33.899458
- Title: GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
- Title(参考訳): GASP: 自律運転のための幾何学的・意味的自己監督型事前トレーニングの統合
- Authors: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg,
- Abstract要約: 本稿では,時空における任意の将来点を予測して統一表現を学習する幾何学的,意味論的自己教師型事前学習手法GASPを提案する。
実測値の代わりに幾何学的および意味論的4次元占有場をモデル化することにより、モデルは、時間を通して環境と環境の一般的な表現を学習する。
- 参考スコア(独自算出の注目度): 12.889523014369884
- License:
- Abstract: Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.
- Abstract(参考訳): 次世代の予測に基づく自己教師付き事前学習により、大規模言語モデルでテキストの構造を捉えることが可能となり、大規模に適用された場合、大規模なタスクに対して前例のないパフォーマンスが得られた。
同様に、自律運転は大量の時空間データを生成し、環境の基本的な幾何学的・意味的な構造と時間の経過とともにその進化を学ぶためにスケールを利用する可能性を示唆している。
本研究では,時空における任意の将来点において,(1)3次元シーンの進化する構造を把握し,(2)エゴの占有,環境を介したエゴの走行経路をモデル化し,(3)視覚基盤モデルから高次特徴を抽出することにより,統一的な表現を学習する幾何学的・意味的な事前学習手法であるGASPを提案する。
実測値の代わりに幾何学的および意味論的4次元占有場をモデル化することにより、モデルは時間を通して環境とその進化の構造化された一般化可能な表現を学習する。
GASPを複数の自律運転ベンチマークで検証し、セマンティック占有率予測、オンラインマッピング、エゴ軌道予測の大幅な改善を示す。
その結果, 連続した4次元幾何学的・意味的占有予測は, 自律走行のためのスケーラブルで効果的な事前学習パラダイムを提供することを示した。
コードと追加の視覚化については、‘href{https://research.zenseact.com/publications/gasp/’を参照してください。
関連論文リスト
- Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。