論文の概要: Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking
- arxiv url: http://arxiv.org/abs/2203.16268v1
- Date: Wed, 30 Mar 2022 13:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:28:09.411762
- Title: Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking
- Title(参考訳): マルチオブジェクト追跡のための2次元・3次元特徴の対話型マルチスケール融合
- Authors: Guangming Wang, Chensheng Peng, Jinpeng Zhang, Hesheng Wang
- Abstract要約: 我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
- 参考スコア(独自算出の注目度): 23.130490413184596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple object tracking (MOT) is a significant task in achieving autonomous
driving. Traditional works attempt to complete this task, either based on point
clouds (PC) collected by LiDAR, or based on images captured from cameras.
However, relying on one single sensor is not robust enough, because it might
fail during the tracking process. On the other hand, feature fusion from
multiple modalities contributes to the improvement of accuracy. As a result,
new techniques based on different sensors integrating features from multiple
modalities are being developed. Texture information from RGB cameras and 3D
structure information from Lidar have respective advantages under different
circumstances. However, it's not easy to achieve effective feature fusion
because of completely distinct information modalities. Previous fusion methods
usually fuse the top-level features after the backbones extract the features
from different modalities. In this paper, we first introduce PointNet++ to
obtain multi-scale deep representations of point cloud to make it adaptive to
our proposed Interactive Feature Fusion between multi-scale features of images
and point clouds. Specifically, through multi-scale interactive query and
fusion between pixel-level and point-level features, our method, can obtain
more distinguishing features to improve the performance of multiple object
tracking. Besides, we explore the effectiveness of pre-training on each single
modality and fine-tuning on the fusion-based model. The experimental results
demonstrate that our method can achieve good performance on the KITTI benchmark
and outperform other approaches without using multi-scale feature fusion.
Moreover, the ablation studies indicates the effectiveness of multi-scale
feature fusion and pre-training on single modality.
- Abstract(参考訳): 複数物体追跡(MOT)は自律走行を実現する上で重要な課題である。
従来の作業では、LiDARが収集した点雲(PC)や、カメラから撮影した画像に基づいてこのタスクを完了させようとしていた。
しかし、単一のセンサーに頼るだけでは、追跡プロセス中に失敗する可能性があるため、十分に堅牢ではない。
一方,複数のモダリティによる特徴融合は,精度の向上に寄与する。
その結果,複数モードの特徴を組み込んだ異なるセンサに基づく新しい技術が開発されている。
RGBカメラのテクスチャ情報とLidarの3D構造情報は、異なる状況下でそれぞれ利点がある。
しかし、全く異なる情報モダリティのため、効果的な機能融合を実現することは容易ではない。
以前のフュージョンメソッドは通常、バックボーンが異なるモダリティから特徴を抽出する後、トップレベルの機能を融合する。
本稿では,まずpointnet++を,複数スケールの画像とポイントクラウド間の対話的特徴融合に適応するために,ポイントクラウドのマルチスケールな深層表現を得るために導入する。
具体的には,マルチスケールなインタラクティブなクエリと,ピクセルレベルとポイントレベルの融合によって,より識別性の高い特徴を得ることにより,複数のオブジェクト追跡の性能を向上させる。
さらに,各モダリティの事前学習と核融合モデルにおける微調整の有効性について検討する。
実験の結果,提案手法はKITTIベンチマークで優れた性能を示し,マルチスケール機能融合を使わずに他の手法よりも優れていることがわかった。
さらに, アブレーション研究は, 単一モダリティに対するマルチスケール特徴融合と事前学習の有効性を示した。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework
for Multi-Modal 3D Object Detection [33.46363259200292]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - A Generalized Multi-Modal Fusion Detection Framework [7.951044844083936]
LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
点雲の広さのため、特定のシナリオでは正確で信頼性の高い検出ができない。
マルチモーダル機能を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:38:07Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。