論文の概要: DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2310.05989v2
- Date: Tue, 28 Nov 2023 02:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:28:51.566466
- Title: DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D
Object Detection
- Title(参考訳): DynamicBEV:3Dオブジェクト検出のための動的クエリと時間コンテキストを活用する
- Authors: Jiawei Yao and Yingxin Lai
- Abstract要約: 本稿では3次元オブジェクト検出に動的クエリを利用する新しいアプローチであるDynamicBEVを紹介する。
静的クエリとは対照的に、提案した動的クエリはK平均クラスタリングとTop-K Attentionを利用する。
効率をさらに高めるため、DynamicBEVは軽量テンポラル核融合モジュール(LTFM)を内蔵している。
- 参考スコア(独自算出の注目度): 0.4662017507844857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is crucial for applications like autonomous driving and
robotics. While query-based 3D object detection for BEV (Bird's Eye View)
images has seen significant advancements, most existing methods follows the
paradigm of static query. Such paradigm is incapable of adapting to complex
spatial-temporal relationships in the scene. To solve this problem, we
introduce a new paradigm in DynamicBEV, a novel approach that employs dynamic
queries for BEV-based 3D object detection. In contrast to static queries, the
proposed dynamic queries exploit K-means clustering and Top-K Attention in a
creative way to aggregate information more effectively from both local and
distant feature, which enable DynamicBEV to adapt iteratively to complex
scenes. To further boost efficiency, DynamicBEV incorporates a Lightweight
Temporal Fusion Module (LTFM), designed for efficient temporal context
integration with a significant computation reduction. Additionally, a
custom-designed Diversity Loss ensures a balanced feature representation across
scenarios. Extensive experiments on the nuScenes dataset validate the
effectiveness of DynamicBEV, establishing a new state-of-the-art and heralding
a paradigm-level breakthrough in query-based BEV object detection.
- Abstract(参考訳): 3Dオブジェクト検出は、自動運転やロボティクスといったアプリケーションには不可欠だ。
BEV(Bird's Eye View)画像に対するクエリベースの3Dオブジェクト検出は大幅に進歩しているが、既存の手法のほとんどは静的クエリのパラダイムに従っている。
このようなパラダイムは、シーン内の複雑な空間的時間的関係に適応できない。
この問題を解決するために,BEVに基づく3次元オブジェクト検出に動的クエリを利用する新しいアプローチであるDynamicBEVのパラダイムを導入する。
静的クエリとは対照的に,提案する動的クエリはk-meansクラスタリングとtop-kアテンションを創造的な方法で活用し,局所的特徴と遠方特徴の両方からより効率的に情報を集約する。
効率をさらに高めるため、DynamicBEVは、時間文脈の効率的な統合と計算の大幅な削減のために設計された軽量時間融合モジュール(LTFM)を組み込んでいる。
さらに、カスタム設計の多様性損失によって、シナリオ間でバランスのとれた機能表現が保証される。
nuScenesデータセットの大規模な実験はDynamicBEVの有効性を検証し、新しい最先端技術を確立し、クエリベースのBEVオブジェクト検出におけるパラダイムレベルのブレークスルーを宣言する。
関連論文リスト
- UniMODE: Unified Monocular 3D Object Detection [76.77182583753051]
我々は,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
本稿では,この課題に起因する収束不安定性に対応するために,不均一なBEVグリッド設計を提案する。
統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセットの先行技術を上回る。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。