論文の概要: Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2307.00347v1
- Date: Sat, 1 Jul 2023 13:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:34:41.069766
- Title: Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection
- Title(参考訳): 空間時間エンハンストランスによるマルチフレーム3次元物体検出
- Authors: Yifan Zhang, Zhiyu Zhu, and Junhui Hou
- Abstract要約: 我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
提案手法では,複数フレームのオブジェクト検出をシーケンス・ツー・シーケンス・タスクとして扱い,特徴量と問合せレベルの空間的依存関係を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 50.44104761707485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Detection Transformer (DETR) has revolutionized the design of CNN-based
object detection systems, showcasing impressive performance. However, its
potential in the domain of multi-frame 3D object detection remains largely
unexplored. In this paper, we present STEMD, a novel end-to-end framework for
multi-frame 3D object detection based on the DETR-like paradigm. Our approach
treats multi-frame 3D object detection as a sequence-to-sequence task and
effectively captures spatial-temporal dependencies at both the feature and
query levels. To model the inter-object spatial interaction and complex
temporal dependencies, we introduce the spatial-temporal graph attention
network. This network represents queries as nodes in a graph and enables
effective modeling of object interactions within a social context. In addition,
to solve the problem of missing hard cases in the proposed output of the
encoder in the current frame, we incorporate the output of the previous frame
to initialize the query input of the decoder. Moreover, we tackle the issue of
redundant detection results, where the model generates numerous overlapping
boxes from similar queries. To mitigate this, we introduce an IoU
regularization term in the loss function. This term aids in distinguishing
between queries matched with the ground-truth box and queries that are similar
but unmatched during the refinement process, leading to reduced redundancy and
more accurate detections. Through extensive experiments, we demonstrate the
effectiveness of our approach in handling challenging scenarios, while
incurring only a minor additional computational overhead. The code will be
available at \url{https://github.com/Eaphan/STEMD}.
- Abstract(参考訳): 検出変換器(DETR)はCNNベースのオブジェクト検出システムの設計に革命をもたらし、優れた性能を示している。
しかし、マルチフレーム3dオブジェクト検出領域におけるその可能性はほとんど未解明のままである。
本稿では,detrライクなパラダイムに基づくマルチフレーム3dオブジェクト検出のための新しいエンドツーエンドフレームワークstemdを提案する。
提案手法では,マルチフレーム3次元物体検出をシーケンスからシーケンスへのタスクとして扱い,特徴量とクエリレベルの両方において空間-時間依存を効果的に捉える。
オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、時空間グラフ注意ネットワークを導入する。
このネットワークはクエリをグラフ内のノードとして表現し、ソーシャルコンテキスト内のオブジェクトインタラクションの効果的なモデリングを可能にする。
また、現在のフレームで提案されているエンコーダの出力において、ハードケースを欠くという問題を解決するために、前フレームの出力を組み込んでデコーダのクエリ入力を初期化する。
さらに,モデルが類似クエリから重複する多数のボックスを生成する冗長検出結果の問題にも対処する。
これを軽減するために、損失関数にIoU正規化項を導入する。
この用語は、接地ボックスにマッチしたクエリと、リファインメントプロセス中に類似するが一致しないクエリを区別するのに役立ち、冗長性の低減とより正確な検出に繋がる。
大規模な実験を通じて,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
コードは \url{https://github.com/Eaphan/STEMD} で入手できる。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは興味のある時点でRGB画像とLiDAR点雲の情報を融合する(略してPoI)
本手法は、ビュー変換による情報損失を防止し、計算集約的なグローバルな注意をなくす。
注目すべきは、私たちのPoIFusionは74.9%のNDSと73.4%のmAPを獲得し、マルチモーダルな3Dオブジェクト検出ベンチマークで最先端の記録を樹立したことです。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。