論文の概要: MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term
Motion-Guided Temporal Attention for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2212.00442v1
- Date: Thu, 1 Dec 2022 11:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:24:07.393337
- Title: MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term
Motion-Guided Temporal Attention for 3D Object Detection
- Title(参考訳): MGTANet:3次元物体検出のための長期動作ガイドによる連続LiDAR点の符号化
- Authors: Junho Koh, Junhyung Lee, Youngwoo Lee, Jaekyum Kim, Jun Won Choi
- Abstract要約: ほとんどのLiDARセンサーは、リアルタイムで一連の点雲を生成する。
近年の研究では、一連の点集合に存在するコンテキストを活用することで、大幅な性能向上が達成されている。
複数の連続走査によって取得された点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 8.305942415868042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most scanning LiDAR sensors generate a sequence of point clouds in real-time.
While conventional 3D object detectors use a set of unordered LiDAR points
acquired over a fixed time interval, recent studies have revealed that
substantial performance improvement can be achieved by exploiting the
spatio-temporal context present in a sequence of LiDAR point sets. In this
paper, we propose a novel 3D object detection architecture, which can encode
LiDAR point cloud sequences acquired by multiple successive scans. The encoding
process of the point cloud sequence is performed on two different time scales.
We first design a short-term motion-aware voxel encoding that captures the
short-term temporal changes of point clouds driven by the motion of objects in
each voxel. We also propose long-term motion-guided bird's eye view (BEV)
feature enhancement that adaptively aligns and aggregates the BEV feature maps
obtained by the short-term voxel encoding by utilizing the dynamic motion
context inferred from the sequence of the feature maps. The experiments
conducted on the public nuScenes benchmark demonstrate that the proposed 3D
object detector offers significant improvements in performance compared to the
baseline methods and that it sets a state-of-the-art performance for certain 3D
object detection categories. Code is available at
https://github.com/HYjhkoh/MGTANet.git
- Abstract(参考訳): ほとんどのLiDARセンサーはリアルタイムで一連の点雲を生成する。
従来の3Dオブジェクト検出器では、一定時間間隔で取得した不整合LiDAR点の集合を用いるが、最近の研究では、LiDAR点集合の列に存在する時空間の時空間を利用して、大幅な性能向上が達成されている。
本稿では,複数の連続走査により得られたLiDAR点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。
点雲列の符号化処理は、2つの異なる時間スケールで行われる。
まず、各ボクセル内の物体の動きによって駆動される点雲の短期的時間変化をキャプチャする、短期的な動き対応のボクセル符号化を設計する。
また,短期ボクセル符号化により得られたBEV特徴マップを,特徴マップのシーケンスから推定される動的動きコンテキストを利用して適応的にアライメントし集約する,長期移動誘導型鳥眼ビュー(BEV)機能拡張を提案する。
公開nuScenesベンチマークで行った実験により,提案した3Dオブジェクト検出器は,ベースライン法と比較して性能が大幅に向上し,特定の3Dオブジェクト検出カテゴリに対して最先端の性能が設定できることを示した。
コードはhttps://github.com/HYjhkoh/MGTANet.gitで入手できる。
関連論文リスト
- Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud
Sequences [38.7464958249103]
我々は,動き予測出力を仮想モードのタイプとして用いて,LiDAR点雲を増大させるMoDARを提案する。
生のセンサーポイントと仮想ポイントの融合した点雲は、任意のオフザシェルフポイントクラウドベースの3Dオブジェクト検出器に供給される。
論文 参考訳(メタデータ) (2023-06-05T19:28:19Z) - D-Align: Dual Query Co-attention Network for 3D Object Detection Based
on Multi-frame Point Cloud Sequence [8.21339007493213]
従来の3Dオブジェクト検出器は一定期間に取得した一連の点を用いて物体を検出する。
近年の研究では、点雲列を利用して物体検出の性能をさらに向上できることが示されている。
D-Alignは,一連の点集合から得られる特徴を調整・集約することで,鳥眼視(BEV)の特徴を効果的に生み出すことができる。
論文 参考訳(メタデータ) (2022-09-30T20:41:25Z) - Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds [94.21415132135951]
複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-26T05:16:28Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。