論文の概要: M3SOT: Multi-frame, Multi-field, Multi-space 3D Single Object Tracking
- arxiv url: http://arxiv.org/abs/2312.06117v1
- Date: Mon, 11 Dec 2023 04:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:51:37.899090
- Title: M3SOT: Multi-frame, Multi-field, Multi-space 3D Single Object Tracking
- Title(参考訳): M3SOT:マルチフレーム、マルチフィールド、マルチスペースの単一オブジェクト追跡
- Authors: Jiaming Liu, Yue Wu, Maoguo Gong, Qiguang Miao, Wenping Ma, Can Qin
- Abstract要約: 3D Single Object Tracking (SOT)はコンピュータビジョンの最前線のタスクであり、自動運転のようなアプリケーションに不可欠なことを証明している。
本研究では、複数の入力フレーム(テンプレート集合)、複数の受容場(連続コンテキスト)、複数の解空間(離散タスク)をONEモデルで相乗化する新しい3D SOTフレームワークであるM3SOTを紹介する。
- 参考スコア(独自算出の注目度): 41.716532647616134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Single Object Tracking (SOT) stands a forefront task of computer vision,
proving essential for applications like autonomous driving. Sparse and occluded
data in scene point clouds introduce variations in the appearance of tracked
objects, adding complexity to the task. In this research, we unveil M3SOT, a
novel 3D SOT framework, which synergizes multiple input frames (template sets),
multiple receptive fields (continuous contexts), and multiple solution spaces
(distinct tasks) in ONE model. Remarkably, M3SOT pioneers in modeling
temporality, contexts, and tasks directly from point clouds, revisiting a
perspective on the key factors influencing SOT. To this end, we design a
transformer-based network centered on point cloud targets in the search area,
aggregating diverse contextual representations and propagating target cues by
employing historical frames. As M3SOT spans varied processing perspectives,
we've streamlined the network-trimming its depth and optimizing its
structure-to ensure a lightweight and efficient deployment for SOT
applications. We posit that, backed by practical construction, M3SOT sidesteps
the need for complex frameworks and auxiliary components to deliver sterling
results. Extensive experiments on benchmarks such as KITTI, nuScenes, and Waymo
Open Dataset demonstrate that M3SOT achieves state-of-the-art performance at 38
FPS. Our code and models are available at
https://github.com/ywu0912/TeamCode.git.
- Abstract(参考訳): 3D Single Object Tracking (SOT)はコンピュータビジョンの最前線のタスクであり、自動運転のようなアプリケーションに不可欠なことを証明している。
シーンポイントクラウド内のスパースとoccludedデータは、追跡されたオブジェクトの外観のバリエーションをもたらし、タスクに複雑さを加えます。
本研究では、複数の入力フレーム(テンプレート集合)、複数の受容場(連続コンテキスト)、複数の解空間(離散タスク)をONEモデルで相乗化する新しい3D SOTフレームワークであるM3SOTを紹介する。
注目すべきことに、M3SOTのパイオニアは、ポイントクラウドから直接時間性、コンテキスト、タスクをモデリングし、SOTに影響を及ぼす重要な要因について再考している。
この目的のために,検索領域におけるポイントクラウドを対象とするトランスフォーマネットワークを設計し,多様な文脈表現を集約し,歴史的フレームを用いてターゲットキューを伝搬する。
M3SOTはさまざまな処理観点にまたがるので、ネットワークトリミングの深度を合理化し、その構造を最適化し、SOTアプリケーションの軽量で効率的なデプロイを確実にします。
M3SOTは実践的な構築を背景として、複雑なフレームワークや補助的なコンポーネントが必要であり、スターリングの結果を提供する必要があると仮定する。
KITTI、nuScenes、Waymo Open Datasetなどのベンチマークに関する大規模な実験は、M3SOTが38FPSで最先端のパフォーマンスを達成することを示した。
私たちのコードとモデルはhttps://github.com/ywu0912/teamcode.gitで利用可能です。
関連論文リスト
- RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは興味のある時点でRGB画像とLiDAR点雲の情報を融合する(略してPoI)
本手法は、ビュー変換による情報損失を防止し、計算集約的なグローバルな注意をなくす。
注目すべきは、私たちのPoIFusionは74.9%のNDSと73.4%のmAPを獲得し、マルチモーダルな3Dオブジェクト検出ベンチマークで最先端の記録を樹立したことです。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking [26.405519771454102]
3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。
本稿では,3次元目標追跡のための点雲の画像テクスチャと形状特性を利用するマルチモーダルマルチレベルフュージョントラッカー(MMF-Track)を提案する。
実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。
論文 参考訳(メタデータ) (2023-05-11T13:34:02Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。