Fugu-MT 論文翻訳(概要): Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object Detection

論文の概要: Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object Detection

arxiv url: http://arxiv.org/abs/2307.00347v2
Date: Tue, 5 Dec 2023 03:28:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 19:57:50.529113
Title: Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object Detection
Title（参考訳）: 空間時間エンハンストランスによるマルチフレーム3次元物体検出
Authors: Yifan Zhang, Zhiyu Zhu, Junhui Hou and Dapeng Wu
Abstract要約: 我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
参考スコア（独自算出の注目度）: 59.03596380773798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Detection Transformer (DETR) has revolutionized the design of CNN-based object detection systems, showcasing impressive performance. However, its potential in the domain of multi-frame 3D object detection remains largely unexplored. In this paper, we present STEMD, a novel end-to-end framework for multi-frame 3D object detection based on the DETR-like paradigm. STEMD treats multi-frame 3D object detection as a sequence-to-sequence task and effectively captures spatial-temporal dependencies at both the feature and query levels. Specifically, to model the inter-object spatial interaction and complex temporal dependencies, we introduce the spatial-temporal graph attention network, which represents queries as nodes in a graph and enables effective modeling of object interactions within a social context. To solve the problem of missing hard cases in the proposed output of the encoder in the current frame, we incorporate the output of the previous frame to initialize the query input of the decoder. Moreover, to mitigate the issue of redundant detection results, where the model generates numerous overlapping boxes from similar queries, we consider an IoU regularization term in the loss function, which can distinguish between queries matched with the ground-truth box and queries that are similar but unmatched during the refinement process, leading to reduced redundancy and more accurate detections. Through extensive experiments, we demonstrate the effectiveness of our approach in handling challenging scenarios, while incurring only a minor additional computational overhead. The code is available at \url{https://github.com/Eaphan/STEMD}.
Abstract（参考訳）: 検出変換器(DETR)はCNNベースのオブジェクト検出システムの設計に革命をもたらし、優れた性能を示している。しかし、マルチフレーム3dオブジェクト検出領域におけるその可能性はほとんど未解明のままである。本稿では,detrライクなパラダイムに基づくマルチフレーム3dオブジェクト検出のための新しいエンドツーエンドフレームワークstemdを提案する。 stemdは、シーケンスからシーケンスへのタスクとしてマルチフレーム3dオブジェクト検出を扱い、機能レベルとクエリレベルの両方で空間-時間依存を効果的に捉えます。具体的には、対象間の空間的相互作用と複雑な時間的依存関係をモデル化するために、グラフ内のノードとしてクエリを表現し、社会的コンテキスト内のオブジェクト間相互作用の効果的なモデリングを可能にする空間-時間グラフアテンションネットワークを導入する。現在のフレームで提案するエンコーダの出力において、ハードケースを欠くという問題を解決するため、前フレームの出力を組み込んでデコーダのクエリ入力を初期化する。さらに,モデルが類似クエリから重複するボックスを多数生成する冗長検出結果の問題を緩和するため,損失関数におけるiou正規化項を考察し,基底ボックスにマッチするクエリと,改良過程で類似するが一致しないクエリを区別し,冗長性が低下し,より正確な検出が可能となる。大規模な実験を通じて,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。コードは \url{https://github.com/eaphan/stemd} で入手できる。

関連論文リスト

A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。 D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文参考訳（メタデータ） (2024-09-03T16:30:48Z)
Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection [33.58208166717537]
3次元物体検出は3次元シーンの理解に不可欠である。半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。半教師付き3次元物体検出のためのエージェントベース拡散モデル(Diff3DETR)を提案する。
論文参考訳（メタデータ） (2024-08-01T05:04:22Z)
SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving [27.731481134782577]
現在のモデルは、通常、タスクヘッドのオブジェクト表現を強化するために隣のフレームから特徴を集約します。これらの手法は将来のフレームからの情報に依存し、高い計算複雑性に悩まされる。本稿では,これらの問題を解決するために,段階的に空間的局所集約ネットワークを導入する。
論文参考訳（メタデータ） (2024-05-29T08:12:51Z)
ADA-Track++: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association [15.161640917854363]
多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Track++を紹介する。エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを提案する。我々は、この関連モジュールをDTRベースの3D検出器のデコーダ層に統合する。
論文参考訳（メタデータ） (2024-05-14T19:02:33Z)
PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文参考訳（メタデータ） (2024-03-14T09:28:12Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)
3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文参考訳（メタデータ） (2022-11-17T07:04:53Z)
Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文参考訳（メタデータ） (2021-09-01T07:01:33Z)
PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文参考訳（メタデータ） (2020-12-18T18:06:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。