論文の概要: DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2310.05989v1
- Date: Sat, 7 Oct 2023 21:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:17:28.371458
- Title: DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D
Object Detection
- Title(参考訳): DynamicBEV:3Dオブジェクト検出のための動的クエリと時間コンテキストを活用する
- Authors: Jiawei Yao and Yingxin Lai
- Abstract要約: 本稿では3次元オブジェクト検出に動的クエリを利用する新しいアプローチであるDynamicBEVを紹介する。
静的クエリとは対照的に、提案した動的クエリはK平均クラスタリングとTop-K Attentionを利用する。
効率をさらに高めるため、DynamicBEVは軽量テンポラル核融合モジュール(LTFM)を内蔵している。
- 参考スコア(独自算出の注目度): 0.4662017507844857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is crucial for applications like autonomous driving and
robotics. While query-based 3D object detection for BEV (Bird's Eye View)
images has seen significant advancements, most existing methods follows the
paradigm of static query. Such paradigm is incapable of adapting to complex
spatial-temporal relationships in the scene. To solve this problem, we
introduce a new paradigm in DynamicBEV, a novel approach that employs dynamic
queries for BEV-based 3D object detection. In contrast to static queries, the
proposed dynamic queries exploit K-means clustering and Top-K Attention in a
creative way to aggregate information more effectively from both local and
distant feature, which enable DynamicBEV to adapt iteratively to complex
scenes. To further boost efficiency, DynamicBEV incorporates a Lightweight
Temporal Fusion Module (LTFM), designed for efficient temporal context
integration with a significant computation reduction. Additionally, a
custom-designed Diversity Loss ensures a balanced feature representation across
scenarios. Extensive experiments on the nuScenes dataset validate the
effectiveness of DynamicBEV, establishing a new state-of-the-art and heralding
a paradigm-level breakthrough in query-based BEV object detection.
- Abstract(参考訳): 3Dオブジェクト検出は、自動運転やロボティクスといったアプリケーションには不可欠だ。
BEV(Bird's Eye View)画像に対するクエリベースの3Dオブジェクト検出は大幅に進歩しているが、既存の手法のほとんどは静的クエリのパラダイムに従っている。
このようなパラダイムは、シーン内の複雑な空間的時間的関係に適応できない。
この問題を解決するために,BEVに基づく3次元オブジェクト検出に動的クエリを利用する新しいアプローチであるDynamicBEVのパラダイムを導入する。
静的クエリとは対照的に,提案する動的クエリはk-meansクラスタリングとtop-kアテンションを創造的な方法で活用し,局所的特徴と遠方特徴の両方からより効率的に情報を集約する。
効率をさらに高めるため、DynamicBEVは、時間文脈の効率的な統合と計算の大幅な削減のために設計された軽量時間融合モジュール(LTFM)を組み込んでいる。
さらに、カスタム設計の多様性損失によって、シナリオ間でバランスのとれた機能表現が保証される。
nuScenesデータセットの大規模な実験はDynamicBEVの有効性を検証し、新しい最先端技術を確立し、クエリベースのBEVオブジェクト検出におけるパラダイムレベルのブレークスルーを宣言する。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。