論文の概要: G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with
Embedding Vector Features
- arxiv url: http://arxiv.org/abs/2003.11089v2
- Date: Thu, 26 Mar 2020 08:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:27:54.381110
- Title: G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with
Embedding Vector Features
- Title(参考訳): G2L-Net: 埋め込みベクトル特徴を用いたリアルタイム6次元空間推定のためのグローバル・ローカルネットワーク
- Authors: Wei Chen, Xi Jia, Hyung Jin Chang, Jinming Duan, Ales Leonardis
- Abstract要約: 本稿では,G2L-Netという新しいリアルタイム6次元オブジェクトポーズ推定フレームワークを提案する。
我々のネットワークは、RGB-D検出の点雲を分割・分散方式で運用している。
G2L-Netは精度と速度の両面で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 39.77987181390717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel real-time 6D object pose estimation
framework, named G2L-Net. Our network operates on point clouds from RGB-D
detection in a divide-and-conquer fashion. Specifically, our network consists
of three steps. First, we extract the coarse object point cloud from the RGB-D
image by 2D detection. Second, we feed the coarse object point cloud to a
translation localization network to perform 3D segmentation and object
translation prediction. Third, via the predicted segmentation and translation,
we transfer the fine object point cloud into a local canonical coordinate, in
which we train a rotation localization network to estimate initial object
rotation. In the third step, we define point-wise embedding vector features to
capture viewpoint-aware information. To calculate more accurate rotation, we
adopt a rotation residual estimator to estimate the residual between initial
rotation and ground truth, which can boost initial pose estimation performance.
Our proposed G2L-Net is real-time despite the fact multiple steps are stacked
via the proposed coarse-to-fine framework. Extensive experiments on two
benchmark datasets show that G2L-Net achieves state-of-the-art performance in
terms of both accuracy and speed.
- Abstract(参考訳): 本稿では,G2L-Netという新しいリアルタイム6次元オブジェクトポーズ推定フレームワークを提案する。
我々のネットワークは、RGB-D検出の点雲を分割・分散方式で運用している。
具体的には、ネットワークは3つのステップから構成される。
まず,RGB-D画像から粗い物体点雲を2次元検出により抽出する。
第二に、粗いオブジェクトポイントクラウドを翻訳ローカライズネットワークに供給し、3次元セグメント化とオブジェクト翻訳予測を行う。
第三に, 予測されたセグメンテーションと変換により, 細かい物体点雲を局所的な正準座標に移し, 回転定位ネットワークを訓練し, 初期物体回転を推定する。
第3のステップでは,視点認識情報を取り込むために,視点埋め込みベクトル特徴を定義する。
より正確な回転を計算するために、初期回転と地上真実の間の残差を推定する回転残差推定器を用い、初期ポーズ推定性能を向上する。
提案するG2L-Netは,提案する粗大なフレームワークによって複数のステップが積み重ねられているにもかかわらず,リアルタイムである。
2つのベンチマークデータセットの大規模な実験は、G2L-Netが精度と速度の両方で最先端のパフォーマンスを達成することを示している。
関連論文リスト
- PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based
3D Object Detection [33.00510927880774]
柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。
提案する柱型検出器であるPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。
論文 参考訳(メタデータ) (2023-11-29T16:11:33Z) - PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR
Point Clouds [29.15589024703907]
本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。
最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能することがわかった。
本研究は,3次元物体検出の高性能化のために,詳細な幾何学的モデリングが不可欠である,という一般的な直観に挑戦する。
論文 参考訳(メタデータ) (2023-05-08T17:59:14Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - Structure Aware and Class Balanced 3D Object Detection on nuScenes
Dataset [0.0]
NuTonomyのnuScenesデータセットは、KITTIのような一般的なデータセットを大きく拡張している。
このモデルの局所化精度は、ダウンスケールされた特徴写像における空間情報の損失に影響される。
本稿では,3次元点雲の構造情報をフル活用した補助ネットワークを設計することで,CBGSモデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-05-25T06:18:49Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Spherical Interpolated Convolutional Network with Distance-Feature
Density for 3D Semantic Segmentation of Point Clouds [24.85151376535356]
従来のグリッド形状の3次元畳み込み演算子を置き換えるために,球面補間畳み込み演算子を提案する。
提案手法は,ScanNetデータセットとParis-Lille-3Dデータセットで良好な性能を示す。
論文 参考訳(メタデータ) (2020-11-27T15:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。