論文の概要: Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.01283v3
- Date: Mon, 18 Sep 2023 09:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:59:06.897376
- Title: Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
- Title(参考訳): クロスモーダルトランスフォーマー:高速かつロバストな3次元物体検出に向けて
- Authors: Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai
Wang, Xiangyu Zhang
- Abstract要約: そこで我々は,CMT (Cross Modal Transformer) と呼ばれる頑健な3次元検出器を提案する。
CMTは画像とポイントのクラウドを入力として取り、正確な3Dバウンディングボックスを直接出力する。
高速な推論速度を維持しながら、nuScenesテストセット上で74.1%のNDSを達成する。
- 参考スコア(独自算出の注目度): 34.920322396476934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a robust 3D detector, named Cross Modal Transformer
(CMT), for end-to-end 3D multi-modal detection. Without explicit view
transformation, CMT takes the image and point clouds tokens as inputs and
directly outputs accurate 3D bounding boxes. The spatial alignment of
multi-modal tokens is performed by encoding the 3D points into multi-modal
features. The core design of CMT is quite simple while its performance is
impressive. It achieves 74.1\% NDS (state-of-the-art with single model) on
nuScenes test set while maintaining fast inference speed. Moreover, CMT has a
strong robustness even if the LiDAR is missing. Code is released at
https://github.com/junjie18/CMT.
- Abstract(参考訳): 本稿では,CMT (Cross Modal Transformer) と呼ばれる高機能な3次元検出器を提案する。
明示的なビュー変換がなければ、cmtはイメージとポイントクラウドトークンを入力として、正確な3dバウンディングボックスを直接出力します。
マルチモーダルトークンの空間アライメントは、3Dポイントをマルチモーダル特徴に符号化することで行う。
CMTのコアデザインは非常にシンプルですが、性能は素晴らしいです。
高速な推論速度を維持しつつ、nuScenesテストセット上で74.1\% NDSを達成する。
さらに、CMTはLiDARが欠落していても強い堅牢性を持っている。
コードはhttps://github.com/junjie18/cmtでリリースされる。
関連論文リスト
- Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Multimodal Transformer for Automatic 3D Annotation and Object Detection [27.92241487946078]
本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
論文 参考訳(メタデータ) (2022-07-20T10:38:29Z) - PatchFormer: A Versatile 3D Transformer Based on Patch Attention [0.358439716487063]
我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
論文 参考訳(メタデータ) (2021-10-30T08:39:55Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。