論文の概要: MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking
- arxiv url: http://arxiv.org/abs/2305.06794v2
- Date: Tue, 15 Aug 2023 03:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 16:37:53.910946
- Title: MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking
- Title(参考訳): MMFトラック:3次元物体追跡のためのマルチモード多レベル融合
- Authors: Zhiheng Li, Yubo Cui, Yu Lin, Zheng Fang
- Abstract要約: 3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。
本稿では,3次元目標追跡のための点雲の画像テクスチャと形状特性を利用するマルチモーダルマルチレベルフュージョントラッカー(MMF-Track)を提案する。
実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。
- 参考スコア(独自算出の注目度): 26.405519771454102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D single object tracking plays a crucial role in computer vision. Mainstream
methods mainly rely on point clouds to achieve geometry matching between target
template and search area. However, textureless and incomplete point clouds make
it difficult for single-modal trackers to distinguish objects with similar
structures. To overcome the limitations of geometry matching, we propose a
Multi-modal Multi-level Fusion Tracker (MMF-Track), which exploits the image
texture and geometry characteristic of point clouds to track 3D target.
Specifically, we first propose a Space Alignment Module (SAM) to align RGB
images with point clouds in 3D space, which is the prerequisite for
constructing inter-modal associations. Then, in feature interaction level, we
design a Feature Interaction Module (FIM) based on dual-stream structure, which
enhances intra-modal features in parallel and constructs inter-modal semantic
associations. Meanwhile, in order to refine each modal feature, we introduce a
Coarse-to-Fine Interaction Module (CFIM) to realize the hierarchical feature
interaction at different scales. Finally, in similarity fusion level, we
propose a Similarity Fusion Module (SFM) to aggregate geometry and texture
clues from the target. Experiments show that our method achieves
state-of-the-art performance on KITTI (39% Success and 42% Precision gains
against previous multi-modal method) and is also competitive on NuScenes.
- Abstract(参考訳): 3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。
主ストリーム法は主に点雲に頼り、ターゲットテンプレートと探索領域間の幾何マッチングを実現する。
しかし、テクスチャレスで不完全な点雲は、単一モードトラッカーが類似した構造を持つ物体を区別することが困難である。
幾何マッチングの限界を克服するために,3次元目標追跡のための点雲の画像テクスチャと幾何学特性を利用するマルチモーダルマルチレベルフュージョントラッカー (MMF-Track) を提案する。
具体的には,まず,rgb画像を3次元空間内の点雲にアライメントするための空間アライメントモジュール(sam)を提案する。
そして,2重ストリーム構造に基づく特徴間相互作用モジュール(FIM)を設計し,並列にモーダル内特徴を拡張し,モーダル間セマンティックアソシエーションを構築する。
一方,各形態的特徴を洗練するために,異なるスケールで階層的特徴的相互作用を実現する粗粒間相互作用モジュール (cfim) を導入する。
最後に、類似度融合レベルでは、ターゲットから幾何学とテクスチャの手がかりを集約する類似度融合モジュール(sfm)を提案する。
実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは興味のある時点でRGB画像とLiDAR点雲の情報を融合する(略してPoI)
本手法は、ビュー変換による情報損失を防止し、計算集約的なグローバルな注意をなくす。
注目すべきは、私たちのPoIFusionは74.9%のNDSと73.4%のmAPを獲得し、マルチモーダルな3Dオブジェクト検出ベンチマークで最先端の記録を樹立したことです。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。