論文の概要: Frustum VoxNet for 3D object detection from RGB-D or Depth images
- arxiv url: http://arxiv.org/abs/1910.05483v3
- Date: Thu, 25 May 2023 02:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 01:12:46.633404
- Title: Frustum VoxNet for 3D object detection from RGB-D or Depth images
- Title(参考訳): RGB-Dまたは深度画像からの3次元物体検出のためのフラストムVoxNet
- Authors: Xiaoke Shen and Ioannis Stamos
- Abstract要約: RGB-Dまたは深度のみの点群からの新しい3次元物体検出システムについて述べる。
我々のシステムはまず2Dで物体を検知する(RGBでも擬似RGBでも)。
我々のシステムの主な新規性は、酸化するフラストラムのどの部分(3D提案)を決定づけることである。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there have been a plethora of classification and detection systems
from RGB as well as 3D images. In this work, we describe a new 3D object
detection system from an RGB-D or depth-only point cloud. Our system first
detects objects in 2D (either RGB or pseudo-RGB constructed from depth). The
next step is to detect 3D objects within the 3D frustums these 2D detections
define. This is achieved by voxelizing parts of the frustums (since frustums
can be really large), instead of using the whole frustums as done in earlier
work. The main novelty of our system has to do with determining which parts (3D
proposals) of the frustums to voxelize, thus allowing us to provide high
resolution representations around the objects of interest. It also allows our
system to have reduced memory requirements. These 3D proposals are fed to an
efficient ResNet-based 3D Fully Convolutional Network (FCN). Our 3D detection
system is fast and can be integrated into a robotics platform. With respect to
systems that do not perform voxelization (such as PointNet), our methods can
operate without the requirement of subsampling of the datasets. We have also
introduced a pipelining approach that further improves the efficiency of our
system. Results on SUN RGB-D dataset show that our system, which is based on a
small network, can process 20 frames per second with comparable detection
results to the state-of-the-art, achieving a 2 times speedup.
- Abstract(参考訳): 近年,rgbの分類・検出システムや3d画像が多数登場している。
本研究では,RGB-Dあるいは深度のみの点群からの新しい3次元物体検出システムについて述べる。
我々のシステムはまず2Dで物体を検知する(RGBでも擬似RGBでも)。
次のステップは、これらの2D検出が定義する3Dフラストラム内の3Dオブジェクトを検出することである。
これは(フラスタムは本当に大きい可能性があるため)フラスタムの一部をボクセルライズすることで実現され、以前の作業のようにフラスタム全体を使わずに済む。
我々のシステムの主な新規性は、フラストラムのどの部分(3Dプロポーザル)を酸化させるかを決定することであり、それによって興味の対象の周囲に高分解能の表現を提供することができる。
また、私たちのシステムではメモリ要求を削減できます。
これらの3D提案は、効率的なResNetベースの3D完全畳み込みネットワーク(FCN)に供給される。
私たちの3D検出システムは高速で、ロボットプラットフォームに統合できます。
ボキセル化を行わないシステム(PointNetなど)に関しては,データセットのサブサンプリングを必要とせずに動作することが可能です。
私たちはまた、システムの効率をさらに向上させるパイプラインアプローチも導入しました。
SUN RGB-Dデータセットの結果から、我々のシステムは小さなネットワークをベースとして毎秒20フレームを処理でき、その検出結果を最先端のものと同等に処理し、2倍の高速化を実現している。
関連論文リスト
- 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data [0.0]
2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
論文 参考訳(メタデータ) (2024-06-19T08:00:35Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - TR3D: Towards Real-Time Indoor 3D Object Detection [6.215404942415161]
TR3Dは、エンドツーエンドで訓練された完全畳み込み3Dオブジェクト検出モデルである。
ポイントクラウドとRGBの両方の入力を利用するため、我々は2Dと3Dの機能の早期融合を導入する。
TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。
論文 参考訳(メタデータ) (2023-02-06T15:25:50Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - ODAM: Object Detection, Association, and Mapping using Posed RGB Video [36.16010611723447]
ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムは,ディープラーニングのフロントエンドを用いて,与えられたRGBフレームから3Dオブジェクトを検出し,グラフニューラルネットワーク(GNN)を用いてグローバルなオブジェクトベースマップに関連付ける。
論文 参考訳(メタデータ) (2021-08-23T13:28:10Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。