論文の概要: PTA-Det: Point Transformer Associating Point cloud and Image for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2301.07301v1
- Date: Wed, 18 Jan 2023 04:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:55:25.337121
- Title: PTA-Det: Point Transformer Associating Point cloud and Image for 3D
Object Detection
- Title(参考訳): PTA-Det:3次元物体検出のための点雲と画像の関連付け
- Authors: Rui Wan, Tianyun Zhao, Wei Zhao
- Abstract要約: 多くのマルチモーダル検出法は、LiDARのみの手法よりもさらに悪い性能を発揮する。
Pseudo Point Cloud Generation Networkは、画像情報を疑似ポイントで変換するために提案されている。
画像からのLiDAR点と擬似点の特徴は、統一された点ベース表現の下で深く融合することができる。
- 参考スコア(独自算出の注目度): 3.691671505269693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, 3D object detection based on multi-modal data has
become an indispensable approach when facing complex environments around the
vehicle. During multi-modal detection, LiDAR and camera are simultaneously
applied for capturing and modeling. However, due to the intrinsic discrepancies
between the LiDAR point and camera image, the fusion of the data for object
detection encounters a series of problems. Most multi-modal detection methods
perform even worse than LiDAR-only methods. In this investigation, we propose a
method named PTA-Det to improve the performance of multi-modal detection.
Accompanied by PTA-Det, a Pseudo Point Cloud Generation Network is proposed,
which can convert image information including texture and semantic features by
pseudo points. Thereafter, through a transformer-based Point Fusion Transition
(PFT) module, the features of LiDAR points and pseudo points from image can be
deeply fused under a unified point-based representation. The combination of
these modules can conquer the major obstacle in feature fusion across
modalities and realizes a complementary and discriminative representation for
proposal generation. Extensive experiments on the KITTI dataset show the
PTA-Det achieves a competitive result and support its effectiveness.
- Abstract(参考訳): 自動運転では、マルチモーダルデータに基づく3次元物体検出は、車両周辺の複雑な環境に対して必須のアプローチとなっている。
マルチモーダル検出において、LiDARとカメラは同時にキャプチャとモデリングに使用される。
しかし、LiDAR点とカメラ画像の固有の相違により、物体検出のためのデータの融合は一連の問題に遭遇する。
多くのマルチモーダル検出法は、lidarのみの方法よりもさらに悪い。
本研究では,マルチモーダル検出の性能向上を目的としたPTA-Det法を提案する。
pta-detと共に、テクスチャや意味的特徴を含む画像情報を疑似ポイントで変換できる疑似ポイントクラウド生成ネットワークが提案されている。
その後、トランスベースポイント融合遷移(pft)モジュールを介して、画像からのライダーポイントと擬似ポイントの特徴を統一されたポイントベース表現の下で深く融合することができる。
これらのモジュールの組み合わせは、モダリティ間の機能融合における大きな障害を克服し、提案生成のための補完的かつ差別的な表現を実現する。
KITTIデータセットの大規模な実験は、PTA-Detが競合する結果を達成し、その有効性を支持することを示している。
関連論文リスト
- Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework [44.44329455757931]
自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
従来の前処理のサンプリング手法は意味的特徴を無視することが多く、詳細な損失や接地点干渉を引き起こす。
本稿では,Semantic-aware Multi-branch Smpling (SMS)モジュールとマルチビュー制約を用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-08T09:25:45Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。