論文の概要: Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.01283v3
- Date: Mon, 18 Sep 2023 09:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:59:06.897376
- Title: Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
- Title(参考訳): クロスモーダルトランスフォーマー:高速かつロバストな3次元物体検出に向けて
- Authors: Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai
Wang, Xiangyu Zhang
- Abstract要約: そこで我々は,CMT (Cross Modal Transformer) と呼ばれる頑健な3次元検出器を提案する。
CMTは画像とポイントのクラウドを入力として取り、正確な3Dバウンディングボックスを直接出力する。
高速な推論速度を維持しながら、nuScenesテストセット上で74.1%のNDSを達成する。
- 参考スコア(独自算出の注目度): 34.920322396476934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a robust 3D detector, named Cross Modal Transformer
(CMT), for end-to-end 3D multi-modal detection. Without explicit view
transformation, CMT takes the image and point clouds tokens as inputs and
directly outputs accurate 3D bounding boxes. The spatial alignment of
multi-modal tokens is performed by encoding the 3D points into multi-modal
features. The core design of CMT is quite simple while its performance is
impressive. It achieves 74.1\% NDS (state-of-the-art with single model) on
nuScenes test set while maintaining fast inference speed. Moreover, CMT has a
strong robustness even if the LiDAR is missing. Code is released at
https://github.com/junjie18/CMT.
- Abstract(参考訳): 本稿では,CMT (Cross Modal Transformer) と呼ばれる高機能な3次元検出器を提案する。
明示的なビュー変換がなければ、cmtはイメージとポイントクラウドトークンを入力として、正確な3dバウンディングボックスを直接出力します。
マルチモーダルトークンの空間アライメントは、3Dポイントをマルチモーダル特徴に符号化することで行う。
CMTのコアデザインは非常にシンプルですが、性能は素晴らしいです。
高速な推論速度を維持しつつ、nuScenesテストセット上で74.1\% NDSを達成する。
さらに、CMTはLiDARが欠落していても強い堅牢性を持っている。
コードはhttps://github.com/junjie18/cmtでリリースされる。
関連論文リスト
- Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - TR3D: Towards Real-Time Indoor 3D Object Detection [6.215404942415161]
TR3Dは、エンドツーエンドで訓練された完全畳み込み3Dオブジェクト検出モデルである。
ポイントクラウドとRGBの両方の入力を利用するため、我々は2Dと3Dの機能の早期融合を導入する。
TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。
論文 参考訳(メタデータ) (2023-02-06T15:25:50Z) - Multimodal Transformer for Automatic 3D Annotation and Object Detection [27.92241487946078]
本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
論文 参考訳(メタデータ) (2022-07-20T10:38:29Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。