論文の概要: M3SOT: Multi-frame, Multi-field, Multi-space 3D Single Object Tracking
- arxiv url: http://arxiv.org/abs/2312.06117v1
- Date: Mon, 11 Dec 2023 04:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:51:37.899090
- Title: M3SOT: Multi-frame, Multi-field, Multi-space 3D Single Object Tracking
- Title(参考訳): M3SOT:マルチフレーム、マルチフィールド、マルチスペースの単一オブジェクト追跡
- Authors: Jiaming Liu, Yue Wu, Maoguo Gong, Qiguang Miao, Wenping Ma, Can Qin
- Abstract要約: 3D Single Object Tracking (SOT)はコンピュータビジョンの最前線のタスクであり、自動運転のようなアプリケーションに不可欠なことを証明している。
本研究では、複数の入力フレーム(テンプレート集合)、複数の受容場(連続コンテキスト)、複数の解空間(離散タスク)をONEモデルで相乗化する新しい3D SOTフレームワークであるM3SOTを紹介する。
- 参考スコア(独自算出の注目度): 41.716532647616134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Single Object Tracking (SOT) stands a forefront task of computer vision,
proving essential for applications like autonomous driving. Sparse and occluded
data in scene point clouds introduce variations in the appearance of tracked
objects, adding complexity to the task. In this research, we unveil M3SOT, a
novel 3D SOT framework, which synergizes multiple input frames (template sets),
multiple receptive fields (continuous contexts), and multiple solution spaces
(distinct tasks) in ONE model. Remarkably, M3SOT pioneers in modeling
temporality, contexts, and tasks directly from point clouds, revisiting a
perspective on the key factors influencing SOT. To this end, we design a
transformer-based network centered on point cloud targets in the search area,
aggregating diverse contextual representations and propagating target cues by
employing historical frames. As M3SOT spans varied processing perspectives,
we've streamlined the network-trimming its depth and optimizing its
structure-to ensure a lightweight and efficient deployment for SOT
applications. We posit that, backed by practical construction, M3SOT sidesteps
the need for complex frameworks and auxiliary components to deliver sterling
results. Extensive experiments on benchmarks such as KITTI, nuScenes, and Waymo
Open Dataset demonstrate that M3SOT achieves state-of-the-art performance at 38
FPS. Our code and models are available at
https://github.com/ywu0912/TeamCode.git.
- Abstract(参考訳): 3D Single Object Tracking (SOT)はコンピュータビジョンの最前線のタスクであり、自動運転のようなアプリケーションに不可欠なことを証明している。
シーンポイントクラウド内のスパースとoccludedデータは、追跡されたオブジェクトの外観のバリエーションをもたらし、タスクに複雑さを加えます。
本研究では、複数の入力フレーム(テンプレート集合)、複数の受容場(連続コンテキスト)、複数の解空間(離散タスク)をONEモデルで相乗化する新しい3D SOTフレームワークであるM3SOTを紹介する。
注目すべきことに、M3SOTのパイオニアは、ポイントクラウドから直接時間性、コンテキスト、タスクをモデリングし、SOTに影響を及ぼす重要な要因について再考している。
この目的のために,検索領域におけるポイントクラウドを対象とするトランスフォーマネットワークを設計し,多様な文脈表現を集約し,歴史的フレームを用いてターゲットキューを伝搬する。
M3SOTはさまざまな処理観点にまたがるので、ネットワークトリミングの深度を合理化し、その構造を最適化し、SOTアプリケーションの軽量で効率的なデプロイを確実にします。
M3SOTは実践的な構築を背景として、複雑なフレームワークや補助的なコンポーネントが必要であり、スターリングの結果を提供する必要があると仮定する。
KITTI、nuScenes、Waymo Open Datasetなどのベンチマークに関する大規模な実験は、M3SOTが38FPSで最先端のパフォーマンスを達成することを示した。
私たちのコードとモデルはhttps://github.com/ywu0912/teamcode.gitで利用可能です。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework [44.44329455757931]
自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
従来の前処理のサンプリング手法は意味的特徴を無視することが多く、詳細な損失や接地点干渉を引き起こす。
本稿では,Semantic-aware Multi-branch Smpling (SMS)モジュールとマルチビュー制約を用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-08T09:25:45Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking [26.405519771454102]
3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。
本稿では,3次元目標追跡のための点雲の画像テクスチャと形状特性を利用するマルチモーダルマルチレベルフュージョントラッカー(MMF-Track)を提案する。
実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。
論文 参考訳(メタデータ) (2023-05-11T13:34:02Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。