論文の概要: Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds
- arxiv url: http://arxiv.org/abs/2207.12659v1
- Date: Tue, 26 Jul 2022 05:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:48:33.931349
- Title: Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds
- Title(参考訳): 点雲からの3次元ビデオ物体検出のためのグラフニューラルネットワークと時空間変換器の注意
- Authors: Junbo Yin, Jianbing Shen, Xin Gao, David Crandall and Ruigang Yang
- Abstract要約: 複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 94.21415132135951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works for LiDAR-based 3D object detection mainly focus on the
single-frame paradigm. In this paper, we propose to detect 3D objects by
exploiting temporal information in multiple frames, i.e., the point cloud
videos. We empirically categorize the temporal information into short-term and
long-term patterns. To encode the short-term data, we present a Grid Message
Passing Network (GMPNet), which considers each grid (i.e., the grouped points)
as a node and constructs a k-NN graph with the neighbor grids. To update
features for a grid, GMPNet iteratively collects information from its
neighbors, thus mining the motion cues in grids from nearby frames. To further
aggregate the long-term frames, we propose an Attentive Spatiotemporal
Transformer GRU (AST-GRU), which contains a Spatial Transformer Attention (STA)
module and a Temporal Transformer Attention (TTA) module. STA and TTA enhance
the vanilla GRU to focus on small objects and better align the moving objects.
Our overall framework supports both online and offline video object detection
in point clouds. We implement our algorithm based on prevalent anchor-based and
anchor-free detectors. The evaluation results on the challenging nuScenes
benchmark show the superior performance of our method, achieving the 1st on the
leaderboard without any bells and whistles, by the time the paper is submitted.
- Abstract(参考訳): 従来のLiDARベースの3Dオブジェクト検出の作業は主に単一フレームのパラダイムに重点を置いていた。
本稿では,複数のフレーム,すなわちポイントクラウドビデオの時間情報を利用して3Dオブジェクトを検出することを提案する。
時間的情報を短期パターンと長期パターンに実証的に分類する。
短期データを符号化するために、各グリッド(例えば、グループ化された点)をノードとして考慮し、隣接するグリッドでk-NNグラフを構築するグリッドメッセージパッシングネットワーク(GMPNet)を提案する。
グリッドの機能を更新するために、GMPNetは隣人からの情報を反復的に収集し、近くのフレームからグリッド内のモーションキューをマイニングする。
長期フレームをさらに集約するために,空間トランスフォーマーアテンション(STA)モジュールとテンポラルトランスフォーマーアテンション(TTA)モジュールを含むAttentive Spatiotemporal Transformer GRU(AST-GRU)を提案する。
STAとTTAは、バニラGRUを強化して、小さなオブジェクトに集中し、動くオブジェクトをよりよく調整する。
私たちのフレームワークは、ポイントクラウドでオンラインとオフラインの両方のビデオオブジェクト検出をサポートします。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
難解な nuScenes ベンチマークによる評価結果は,提案手法の優れた性能を示し,ベルや笛を使わずにリーダボード上で1位を達成できた。
関連論文リスト
- PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Collect-and-Distribute Transformer for 3D Point Cloud Analysis [82.03517861433849]
本稿では,点雲の短距離・長距離コンテキストを通信するための収集・分散機構を備えた新しい変圧器ネットワークを提案する。
その結果,提案したCDFormerの有効性が示され,ポイントクラウドの分類とセグメンテーションタスクにおける最先端のパフォーマンスがいくつか提供された。
論文 参考訳(メタデータ) (2023-06-02T03:48:45Z) - MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term
Motion-Guided Temporal Attention for 3D Object Detection [8.305942415868042]
ほとんどのLiDARセンサーは、リアルタイムで一連の点雲を生成する。
近年の研究では、一連の点集合に存在するコンテキストを活用することで、大幅な性能向上が達成されている。
複数の連続走査によって取得された点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-01T11:24:47Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。