論文の概要: OccupancyDETR: Making Semantic Scene Completion as Straightforward as
Object Detection
- arxiv url: http://arxiv.org/abs/2309.08504v2
- Date: Fri, 22 Sep 2023 13:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 17:43:47.231477
- Title: OccupancyDETR: Making Semantic Scene Completion as Straightforward as
Object Detection
- Title(参考訳): OccupancyDETR: オブジェクト検出としてストレートフォワードとしてセマンティックシーンコンプリートを作成する
- Authors: Yupeng Jia, Jie He, Runze Chen, Fang Zhao and Haiyong Luo
- Abstract要約: 3Dセマンティック占有感は、自律運転のようなロボットアプリケーションのための新しい知覚パラダイムである。
我々は,DETRのようなオブジェクト検出モジュールと3D占有デコーダモジュールからなる,新しい3D意味的占有認識手法OccupancyDETRを提案する。
提案手法がSemantic KITTIデータセットに与える影響を実証し,mIoUが23で,処理速度が毎秒6フレームであることを示す。
- 参考スコア(独自算出の注目度): 11.663298245614584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-based 3D semantic occupancy perception (also known as 3D semantic
scene completion) is a new perception paradigm for robotic applications like
autonomous driving. Compared with Bird's Eye View (BEV) perception, it extends
the vertical dimension, significantly enhancing the ability of robots to
understand their surroundings. However, due to this very reason, the
computational demand for current 3D semantic occupancy perception methods
generally surpasses that of BEV perception methods and 2D perception methods.
We propose a novel 3D semantic occupancy perception method, OccupancyDETR,
which consists of a DETR-like object detection module and a 3D occupancy
decoder module. The integration of object detection simplifies our method
structurally - instead of predicting the semantics of each voxels, it
identifies objects in the scene and their respective 3D occupancy grids. This
speeds up our method, reduces required resources, and leverages object
detection algorithm, giving our approach notable performance on small objects.
We demonstrate the effectiveness of our proposed method on the SemanticKITTI
dataset, showcasing an mIoU of 23 and a processing speed of 6 frames per
second, thereby presenting a promising solution for real-time 3D semantic scene
completion.
- Abstract(参考訳): 視覚ベースの3dセマンティック占有知覚(3dセマンティックシーン補完とも呼ばれる)は、自動運転のようなロボットアプリケーションのための新しい知覚パラダイムである。
バードアイビュー(Bird's Eye View, BEV)の知覚と比較すると、垂直方向を延長し、ロボットが周囲を理解する能力を大幅に向上させる。
しかし、この理由から、現在の3Dセマンティック占有感法に対する計算需要は、一般的にはBEV知覚法や2D知覚法を超越している。
我々は,DETRのようなオブジェクト検出モジュールと3D占有デコーダモジュールからなる,新しい3D意味的占有認識手法OccupancyDETRを提案する。
オブジェクト検出の統合は、各ボクセルのセマンティクスを予測する代わりに、シーン内のオブジェクトとその3D占有グリッドを識別する。
これにより,本手法を高速化し,必要なリソースを削減し,オブジェクト検出アルゴリズムを活用する。
我々は,提案手法の有効性をSemanticKITTIデータセットで示し,23のmIoUと毎秒6フレームの処理速度を示し,リアルタイムな3Dセマンティックシーンの完成に期待できる解決策を提示する。
関連論文リスト
- Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [79.8456640972935]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
本稿では,3つのスタンドアロンモジュールを特徴とする高密度3次元グラウンドネットワークを提案する。
まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - Seeing by haptic glance: reinforcement learning-based 3D object
Recognition [31.80213713136647]
対象物と指の間の触覚接触数に制限があり、対象物を見ることなく3D認識を行うことができる。
この能力は認知神経科学における「触覚的視線」と定義される。
既存の3D認識モデルのほとんどは、高密度な3Dデータに基づいて開発された。
触覚探索によって3Dデータを収集するためにロボットが使用される多くの実生活のユースケースでは、限られた数の3Dポイントしか収集できない。
アクティブに収集された3Dで客観的な3D認識と同時に触覚探査手順を最適化する新しい強化学習ベースのフレームワークが提案される。
論文 参考訳(メタデータ) (2021-02-15T15:38:22Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。