論文の概要: SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.16588v1
- Date: Sat, 20 Sep 2025 09:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.874517
- Title: SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving
- Title(参考訳): SQS: 自律運転におけるクエリベースのスプラッティングによるスパース知覚モデルの強化
- Authors: Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li,
- Abstract要約: スパースパーセプションモデル(SPM)のための新しいクエリベーススプラッティング事前トレーニングであるSQSを紹介する。
SQSは、事前トレーニング中にスパースクエリから3Dガウス表現を予測する。
自律運転ベンチマークの実験では、SQSは複数のクエリベースの3D知覚タスクでかなりのパフォーマンス向上を達成している。
- 参考スコア(独自算出の注目度): 56.198745862311824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes explicit dense BEV or volumetric construction, enabling highly efficient computation and accelerated inference. In this paper, we introduce SQS, a novel query-based splatting pre-training specifically designed to advance SPMs in autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian representations from sparse queries during pre-training, leveraging self-supervised splatting to learn fine-grained contextual features through the reconstruction of multi-view images and depth maps. During fine-tuning, the pre-trained Gaussian queries are seamlessly integrated into downstream networks via query interaction mechanisms that explicitly connect pre-trained queries with task-specific queries, effectively accommodating the diverse requirements of occupancy prediction and 3D object detection. Extensive experiments on autonomous driving benchmarks demonstrate that SQS delivers considerable performance gains across multiple query-based 3D perception tasks, notably in occupancy prediction and 3D object detection, outperforming prior state-of-the-art pre-training approaches by a significant margin (i.e., +1.3 mIoU on occupancy prediction and +1.0 NDS on 3D detection).
- Abstract(参考訳): スパースパーセプションモデル(SPM)はクエリ駆動のパラダイムを採用しており、明示的な高密度のBEVや容積構成を強制し、高い効率の計算と推論の高速化を可能にしている。
本稿では,SQSについて紹介する。SQSは,自律運転におけるSPMの促進に特化して設計された,新しいクエリベースのスプラッティングプリトレーニングである。
SQSは、事前トレーニング中にスパースクエリから3Dガウス表現を予測するプラグインモジュールを導入し、マルチビューイメージと深度マップの再構成を通じて、詳細なコンテキスト特徴を学習するために自己教師付きスプラッティングを活用している。
微調整中、事前訓練されたガウスクエリは、タスク固有のクエリと明示的にトレーニング済みクエリを接続するクエリインタラクションメカニズムを介して、ダウンストリームネットワークにシームレスに統合され、占有率予測と3Dオブジェクト検出の多様な要件を効果的に調整する。
自律運転ベンチマークに関する大規模な実験は、SQSが複数のクエリベースの3D知覚タスクにおいて、特に占有率予測と3Dオブジェクト検出において、かなりのマージン(占有率予測では+1.3 mIoU、3D検出では+1.0 NDS)で先行訓練のアプローチよりも優れたパフォーマンスをもたらすことを示した。
関連論文リスト
- DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos [53.52664872583893]
Bird's Eye View (BEV) におけるカメラベースの3Dオブジェクト検出は、自律運転において最も重要な認識タスクの1つである。
状態空間学習と動的クエリを用いた新しいDySSを提案する。
提案するDySSは,優れた検出性能と効率的な推論を実現する。
論文 参考訳(メタデータ) (2025-06-11T23:49:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking [38.63155724204429]
3D多重物体追跡(MOT)は自律運転知覚において重要な役割を担っている。
最近のエンドツーエンドのクエリベースのトラッカーは、オブジェクトを同時に検出および追跡し、3D MOTタスクの有望な可能性を示している。
既存の手法はまだ開発の初期段階にあり、体系的な改善が欠けている。
論文 参考訳(メタデータ) (2024-06-04T09:34:46Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Superquadric Object Representation for Optimization-based Semantic SLAM [31.13636619458275]
本研究では,SQパラメータを多視点カメラ観測に適合させるためにセマンティックマスク計測を利用するパイプラインを提案する。
マルチビューマスク観測からランダムに生成されたSQパラメータを検索するシステムの能力を実証する。
論文 参考訳(メタデータ) (2021-09-20T15:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。