論文の概要: TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2208.03141v1
- Date: Thu, 4 Aug 2022 15:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:48:37.410335
- Title: TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object
Detection
- Title(参考訳): TransPillars: 複数フレーム3次元物体検出のための粗粒集合
- Authors: Zhipeng Luo, Gongjie Zhang, Changqing Zhou, Tianrui Liu, Shijian Lu,
Liang Pan
- Abstract要約: ポイントクラウドを用いた3Dオブジェクト検出は、自律走行とロボット工学に広く応用されているため、注目を集めている。
連続点雲フレームの時間的特徴を生かしたトランスピラース(TransPillars)を設計する。
提案するTransPillarsは,既存のマルチフレーム検出手法と比較して最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.941714033657675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection using point clouds has attracted increasing attention due
to its wide applications in autonomous driving and robotics. However, most
existing studies focus on single point cloud frames without harnessing the
temporal information in point cloud sequences. In this paper, we design
TransPillars, a novel transformer-based feature aggregation technique that
exploits temporal features of consecutive point cloud frames for multi-frame 3D
object detection. TransPillars aggregates spatial-temporal point cloud features
from two perspectives. First, it fuses voxel-level features directly from
multi-frame feature maps instead of pooled instance features to preserve
instance details with contextual information that are essential to accurate
object localization. Second, it introduces a hierarchical coarse-to-fine
strategy to fuse multi-scale features progressively to effectively capture the
motion of moving objects and guide the aggregation of fine features. Besides, a
variant of deformable transformer is introduced to improve the effectiveness of
cross-frame feature matching. Extensive experiments show that our proposed
TransPillars achieves state-of-art performance as compared to existing
multi-frame detection approaches. Code will be released.
- Abstract(参考訳): ポイントクラウドを用いた3dオブジェクト検出は、自動運転とロボット工学の幅広い応用により、注目を集めている。
しかし、既存の研究のほとんどは、ポイントクラウドシーケンスの時間情報を利用することなく、シングルポイントクラウドフレームに焦点を当てている。
本稿では,マルチフレーム3次元物体検出のために連続点雲フレームの時間的特徴を利用するトランスピラーを設計する。
TransPillarsは2つの視点から時空間の雲の特徴を集約する。
まず、voxelレベルの機能をマルチフレーム機能マップから直接融合し、インスタンスの詳細と正確なオブジェクトのローカライゼーションに不可欠なコンテキスト情報を保存する。
第2に,マルチスケール機能を段階的に融合し,移動物体の運動を効果的に把握し,微細な特徴の集約を導く階層的粗粒化戦略を導入する。
さらに、クロスフレーム特徴マッチングの有効性を向上させるため、変形可能な変圧器の変種を導入する。
拡張実験により,提案するTransPillarsは,既存のマルチフレーム検出手法と比較して,最先端性能を実現することが示された。
コードはリリースされる。
関連論文リスト
- PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - STTracker: Spatio-Temporal Tracker for 3D Single Object Tracking [11.901758708579642]
ポイントクラウドによる3Dオブジェクトのトラッキングは、3Dコンピュータビジョンにおいて重要なタスクである。
以前の方法は、通常、最後の2つのフレームを入力し、前のフレームのテンプレートポイントクラウドと現在のフレームの検索エリアポイントクラウドを使用する。
論文 参考訳(メタデータ) (2023-06-30T07:25:11Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Boosting Single-Frame 3D Object Detection by Simulating Multi-Frame
Point Clouds [47.488158093929904]
我々は,マルチフレーム点雲上で訓練された検出器に追従して,特徴と応答をシミュレートするために検出器を訓練する新しい手法を提案する。
このアプローチでは,単一フレーム検出装置のトレーニング時にのみマルチフレームポイントクラウドが必要であり,一度トレーニングすれば,単一フレームポイントクラウドのみをインプットとして検出することができる。
論文 参考訳(メタデータ) (2022-07-03T12:59:50Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。