論文の概要: LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention
- arxiv url: http://arxiv.org/abs/2004.01389v1
- Date: Fri, 3 Apr 2020 06:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:38:32.276528
- Title: LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention
- Title(参考訳): グラフベースのメッセージパッシングと時空間トランスフォーマアテンションを用いたLiDARによるオンライン3Dビデオオブジェクト検出
- Authors: Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang
- Abstract要約: 3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
- 参考スコア(独自算出の注目度): 100.52873557168637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing LiDAR-based 3D object detectors usually focus on the single-frame
detection, while ignoring the spatiotemporal information in consecutive point
cloud frames. In this paper, we propose an end-to-end online 3D video object
detector that operates on point cloud sequences. The proposed model comprises a
spatial feature encoding component and a spatiotemporal feature aggregation
component. In the former component, a novel Pillar Message Passing Network
(PMPNet) is proposed to encode each discrete point cloud frame. It adaptively
collects information for a pillar node from its neighbors by iterative message
passing, which effectively enlarges the receptive field of the pillar feature.
In the latter component, we propose an Attentive Spatiotemporal Transformer GRU
(AST-GRU) to aggregate the spatiotemporal information, which enhances the
conventional ConvGRU with an attentive memory gating mechanism. AST-GRU
contains a Spatial Transformer Attention (STA) module and a Temporal
Transformer Attention (TTA) module, which can emphasize the foreground objects
and align the dynamic objects, respectively. Experimental results demonstrate
that the proposed 3D video object detector achieves state-of-the-art
performance on the large-scale nuScenes benchmark.
- Abstract(参考訳): 既存のLiDARベースの3Dオブジェクト検出器は通常、連続する点の雲のフレームの時空間情報を無視しながら、単一フレームの検出にフォーカスする。
本稿では,ポイントクラウドシーケンスで動作するエンドツーエンドの3Dビデオオブジェクト検出器を提案する。
提案モデルは空間的特徴符号化成分と時空間的特徴集約成分からなる。
前者のコンポーネントでは、各個別のクラウドフレームをエンコードするために、新しいPMPNet(Pillar Message Passing Network)が提案されている。
柱特徴の受容場を効果的に拡大する反復メッセージパッシングにより、隣接する柱ノードに関する情報を適応的に収集する。
後者の成分では,時空間情報を集約する注意時空間変圧器 gru (ast-gru) を提案し,注意記憶ゲーティング機構により従来のconvgruを強化した。
ast-gruはspatial transformer attention (sta)モジュールとtemporal transformer attention (tta)モジュールを含み、それぞれ前景オブジェクトを強調し、動的オブジェクトをアライメントすることができる。
実験の結果,提案する3次元映像物体検出装置は,大規模nuscenesベンチマークにおいて最先端の性能を実現することがわかった。
関連論文リスト
- PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term
Motion-Guided Temporal Attention for 3D Object Detection [8.305942415868042]
ほとんどのLiDARセンサーは、リアルタイムで一連の点雲を生成する。
近年の研究では、一連の点集合に存在するコンテキストを活用することで、大幅な性能向上が達成されている。
複数の連続走査によって取得された点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-01T11:24:47Z) - D-Align: Dual Query Co-attention Network for 3D Object Detection Based
on Multi-frame Point Cloud Sequence [8.21339007493213]
従来の3Dオブジェクト検出器は一定期間に取得した一連の点を用いて物体を検出する。
近年の研究では、点雲列を利用して物体検出の性能をさらに向上できることが示されている。
D-Alignは,一連の点集合から得られる特徴を調整・集約することで,鳥眼視(BEV)の特徴を効果的に生み出すことができる。
論文 参考訳(メタデータ) (2022-09-30T20:41:25Z) - TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object
Detection [47.941714033657675]
ポイントクラウドを用いた3Dオブジェクト検出は、自律走行とロボット工学に広く応用されているため、注目を集めている。
連続点雲フレームの時間的特徴を生かしたトランスピラース(TransPillars)を設計する。
提案するTransPillarsは,既存のマルチフレーム検出手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-04T15:41:43Z) - Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds [94.21415132135951]
複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-26T05:16:28Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving [121.44554957537613]
我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-27T09:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。