論文の概要: OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2309.08504v3
- Date: Sat, 18 May 2024 13:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:30:29.360368
- Title: OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction
- Title(参考訳): OccupancyDETR:DTRを用いた混合密度スパース3次元活動予測
- Authors: Yupeng Jia, Jie He, Runze Chen, Fang Zhao, Haiyong Luo,
- Abstract要約: 視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術である。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
- 参考スコア(独自算出の注目度): 10.87136340580404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-based 3D semantic occupancy perception is a key technology for robotics, including autonomous vehicles, offering an enhanced understanding of the environment by 3D. This approach, however, typically requires more computational resources than BEV or 2D methods. We propose a novel 3D semantic occupancy perception method, OccupancyDETR, which utilizes a DETR-like object detection, a mixed dense-sparse 3D occupancy decoder. Our approach distinguishes between foreground and background within a scene. Initially, foreground objects are detected using the DETR-like object detection. Subsequently, queries for both foreground and background objects are fed into the mixed dense-sparse 3D occupancy decoder, performing upsampling in dense and sparse methods, respectively. Finally, a MaskFormer is utilized to infer the semantics of the background voxels. Our approach strikes a balance between efficiency and accuracy, achieving faster inference times, lower resource consumption, and improved performance for small object detection. We demonstrate the effectiveness of our proposed method on the SemanticKITTI dataset, showcasing an mIoU of 14 and a processing speed of 10 FPS, thereby presenting a promising solution for real-time 3D semantic occupancy perception.
- Abstract(参考訳): 視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術であり、3Dによる環境の理解を深める。
しかし、このアプローチは一般的に、BEVや2Dメソッドよりも多くの計算資源を必要とする。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
私たちのアプローチは、シーン内の前景と背景を区別します。
最初は、DETRのような物体検出を用いて、前景の物体を検出する。
その後、前景オブジェクトと背景オブジェクトの両方のクエリを混合密度の3D占有デコーダに入力し、それぞれ密度の低いメソッドとスパースメソッドでアップサンプリングを行う。
最後に、MaskFormerを使用して、バックグラウンドのvoxelのセマンティクスを推測する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
提案手法をSemanticKITTIデータセットに適用し,14のmIoUと10FPSの処理速度を示した。
関連論文リスト
- SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。