論文の概要: DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos
- arxiv url: http://arxiv.org/abs/2506.10242v1
- Date: Wed, 11 Jun 2025 23:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.495852
- Title: DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos
- Title(参考訳): DySS:マルチカメラ映像からの高能率3次元物体検出のための動的クエリと状態空間学習
- Authors: Rajeev Yasarla, Shizhong Han, Hong Cai, Fatih Porikli,
- Abstract要約: Bird's Eye View (BEV) におけるカメラベースの3Dオブジェクト検出は、自律運転において最も重要な認識タスクの1つである。
状態空間学習と動的クエリを用いた新しいDySSを提案する。
提案するDySSは,優れた検出性能と効率的な推論を実現する。
- 参考スコア(独自算出の注目度): 53.52664872583893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-based 3D object detection in Bird's Eye View (BEV) is one of the most important perception tasks in autonomous driving. Earlier methods rely on dense BEV features, which are costly to construct. More recent works explore sparse query-based detection. However, they still require a large number of queries and can become expensive to run when more video frames are used. In this paper, we propose DySS, a novel method that employs state-space learning and dynamic queries. More specifically, DySS leverages a state-space model (SSM) to sequentially process the sampled features over time steps. In order to encourage the model to better capture the underlying motion and correspondence information, we introduce auxiliary tasks of future prediction and masked reconstruction to better train the SSM. The state of the SSM then provides an informative yet efficient summarization of the scene. Based on the state-space learned features, we dynamically update the queries via merge, remove, and split operations, which help maintain a useful, lean set of detection queries throughout the network. Our proposed DySS achieves both superior detection performance and efficient inference. Specifically, on the nuScenes test split, DySS achieves 65.31 NDS and 57.4 mAP, outperforming the latest state of the art. On the val split, DySS achieves 56.2 NDS and 46.2 mAP, as well as a real-time inference speed of 33 FPS.
- Abstract(参考訳): Bird's Eye View (BEV) におけるカメラベースの3Dオブジェクト検出は、自律運転において最も重要な認識タスクの1つである。
以前の手法は高密度のBEV機能に依存しており、建設に要する費用がかかる。
最近の研究では、スパースクエリベースの検出について検討している。
しかし、まだ大量のクエリを必要としており、より多くのビデオフレームを使用すると、実行にコストがかかる可能性がある。
本稿では,状態空間学習と動的クエリを用いた新しいDySSを提案する。
より具体的には、DySSは状態空間モデル(SSM)を活用して、サンプリングされた機能を時間ステップで順次処理する。
モデルが基盤となる動きや対応情報をよりよく捉えるために,将来予測の補助的タスクを導入し,SSMをより良く訓練するためのマスク付き再構築を行う。
SSMの状態は、そのシーンの情報的かつ効率的な要約を提供する。
状態空間の学習機能に基づいて、マージ、削除、分割操作を通じてクエリを動的に更新する。
提案するDySSは,優れた検出性能と効率的な推論を実現する。
具体的には、nuScenesテストの分割で、DySSは65.31 NDSと57.4 mAPを達成した。
val分割では、DySSは56.2 NDSと46.2 mAPを獲得し、リアルタイムの推論速度は33 FPSである。
関連論文リスト
- State Space Model Meets Transformer: A New Paradigm for 3D Object Detection [33.49952392298874]
インタラクティブなSTate空間モデル(DEST)を用いた新しい3次元オブジェクト検出パラダイムを提案する。
対話型SSMでは,3次元屋内検出タスクにおいて,システム状態が効率的にクエリとして機能する新しい状態依存型SSMパラメータ化法を設計する。
ScanNet V2 と SUN RGB-D データセットの AP50 で GroupFree のベースラインを改善する。
論文 参考訳(メタデータ) (2025-03-18T17:58:03Z) - S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking [38.63155724204429]
3D多重物体追跡(MOT)は自律運転知覚において重要な役割を担っている。
最近のエンドツーエンドのクエリベースのトラッカーは、オブジェクトを同時に検出および追跡し、3D MOTタスクの有望な可能性を示している。
既存の手法はまだ開発の初期段階にあり、体系的な改善が欠けている。
論文 参考訳(メタデータ) (2024-06-04T09:34:46Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - DBQ-SSD: Dynamic Ball Query for Efficient 3D Object Detection [113.5418064456229]
入力特徴に応じて入力点のサブセットを適応的に選択する動的ボールクエリ(DBQ)ネットワークを提案する。
最先端の3D検出器に組み込むことができ、エンドツーエンドで訓練することで、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2022-07-22T07:08:42Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。