論文の概要: M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers
- arxiv url: http://arxiv.org/abs/2104.11896v1
- Date: Sat, 24 Apr 2021 06:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:41:17.720474
- Title: M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers
- Title(参考訳): M3DeTR: トランスフォーマーを用いたマルチ表現・マルチスケール・相互関連3次元物体検出
- Authors: Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry
Davis, Dinesh Manocha
- Abstract要約: M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
- 参考スコア(独自算出の注目度): 78.48081972698888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel architecture for 3D object detection, M3DeTR, which
combines different point cloud representations (raw, voxels, bird-eye view)
with different feature scales based on multi-scale feature pyramids. M3DeTR is
the first approach that unifies multiple point cloud representations, feature
scales, as well as models mutual relationships between point clouds
simultaneously using transformers. We perform extensive ablation experiments
that highlight the benefits of fusing representation and scale, and modeling
the relationships. Our method achieves state-of-the-art performance on the
KITTI 3D object detection dataset and Waymo Open Dataset. Results show that
M3DeTR improves the baseline significantly by 1.48% mAP for all classes on
Waymo Open Dataset. In particular, our approach ranks 1st on the well-known
KITTI 3D Detection Benchmark for both car and cyclist classes, and ranks 1st on
Waymo Open Dataset with single frame point cloud input.
- Abstract(参考訳): 本稿では,様々な点クラウド表現(raw,voxels,bird-eye view)と,マルチスケール特徴ピラミッドに基づく異なる特徴スケールを組み合わせた,新たな3dオブジェクト検出アーキテクチャであるm3detrを提案する。
M3DeTRは、マルチポイントクラウド表現、特徴スケールを統一する最初のアプローチであり、トランスフォーマーを使用してポイントクラウド間の相互関係をモデル化する。
我々は、表現とスケールの融合の利点を強調し、関係をモデル化する広範囲なアブレーション実験を行う。
提案手法は,KITTI 3Dオブジェクト検出データセットとWaymo Open Dataset上での最先端性能を実現する。
その結果,Waymo Open Datasetの全クラスに対して,M3DeTRは1.48%のmAPでベースラインを大幅に改善した。
特に,車と自転車の両クラスでよく知られたkitti 3d検出ベンチマークで1位,単一フレームポイントクラウド入力によるwaymo open datasetでは1位にランクインした。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking [26.405519771454102]
3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。
本稿では,3次元目標追跡のための点雲の画像テクスチャと形状特性を利用するマルチモーダルマルチレベルフュージョントラッカー(MMF-Track)を提案する。
実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。
論文 参考訳(メタデータ) (2023-05-11T13:34:02Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。