論文の概要: Improving 3D Object Detection with Channel-wise Transformer
- arxiv url: http://arxiv.org/abs/2108.10723v1
- Date: Mon, 23 Aug 2021 02:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 01:14:33.066666
- Title: Improving 3D Object Detection with Channel-wise Transformer
- Title(参考訳): チャネルワイズトランスを用いた3次元物体検出の改善
- Authors: Hualian Sheng and Sijia Cai and Yuan Liu and Bing Deng and Jianqiang
Huang and Xian-Sheng Hua and Min-Jian Zhao
- Abstract要約: 我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
- 参考スコア(独自算出の注目度): 58.668922561622466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though 3D object detection from point clouds has achieved rapid progress in
recent years, the lack of flexible and high-performance proposal refinement
remains a great hurdle for existing state-of-the-art two-stage detectors.
Previous works on refining 3D proposals have relied on human-designed
components such as keypoints sampling, set abstraction and multi-scale feature
fusion to produce powerful 3D object representations. Such methods, however,
have limited ability to capture rich contextual dependencies among points. In
this paper, we leverage the high-quality region proposal network and a
Channel-wise Transformer architecture to constitute our two-stage 3D object
detection framework (CT3D) with minimal hand-crafted design. The proposed CT3D
simultaneously performs proposal-aware embedding and channel-wise context
aggregation for the point features within each proposal. Specifically, CT3D
uses proposal's keypoints for spatial contextual modelling and learns attention
propagation in the encoding module, mapping the proposal to point embeddings.
Next, a new channel-wise decoding module enriches the query-key interaction via
channel-wise re-weighting to effectively merge multi-level contexts, which
contributes to more accurate object predictions. Extensive experiments
demonstrate that our CT3D method has superior performance and excellent
scalability. Remarkably, CT3D achieves the AP of 81.77% in the moderate car
category on the KITTI test 3D detection benchmark, outperforms state-of-the-art
3D detectors.
- Abstract(参考訳): ポイントクラウドからの3dオブジェクト検出は近年急速に進歩しているが、フレキシブルで高性能な提案の精度向上の欠如は、既存の2段階検出器にとって大きなハードルとなっている。
従来の3dプロポーザルの改良作業は、キーポイントサンプリング、セット抽象化、マルチスケール機能融合などの人間設計のコンポーネントに依存しており、強力な3dオブジェクト表現を生成する。
しかし、そのような方法は、ポイント間のリッチなコンテキスト依存をキャプチャする能力に制限がある。
本稿では,高品質な領域提案ネットワークとチャネルワイズトランスフォーマティブアーキテクチャを用いて,手作りの最小限の設計で2段階の3dオブジェクト検出フレームワーク(ct3d)を構成する。
提案するct3dは,各提案のポイント特徴に対して,提案認識埋め込みとチャネル毎コンテキストアグリゲーションを同時に行う。
具体的には、CT3Dは空間的コンテキストモデリングに提案のキーポイントを使用し、符号化モジュール内の注意伝播を学習し、提案をポイント埋め込みにマッピングする。
次に、チャネルワイズデコーディングモジュールは、チャネルワイズ再重み付けによるクエリキーインタラクションを強化し、より正確なオブジェクト予測に寄与するマルチレベルコンテキストを効果的にマージする。
広範な実験により,ct3d法の性能とスケーラビリティが向上した。
驚くべきことに、ct3dはkitti test 3d detection benchmarkにおいて中等車カテゴリーの81.77%のapを達成し、最先端の3d検出器よりも優れている。
関連論文リスト
- CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - 3D Cascade RCNN: High Quality Object Detection in Point Clouds [122.42455210196262]
本稿では3次元カスケードRCNNを提案する。これはカスケードパラダイムにおいて、酸化点雲に基づいて複数の検出器を割り当てる。
提案する3次元カスケードRCNNは,最先端の3次元物体検出技術と比較した場合の優位性を検証した。
論文 参考訳(メタデータ) (2022-11-15T15:58:36Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。