Fugu-MT 論文翻訳(概要): PERCH 2.0 : Fast and Accurate GPU-based Perception via Search for Object Pose Estimation

論文の概要: PERCH 2.0 : Fast and Accurate GPU-based Perception via Search for Object Pose Estimation

arxiv url: http://arxiv.org/abs/2008.00326v1
Date: Sat, 1 Aug 2020 19:42:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 01:03:49.578395
Title: PERCH 2.0 : Fast and Accurate GPU-based Perception via Search for Object Pose Estimation
Title（参考訳）: PERCH 2.0 : オブジェクトポス推定による高速かつ高精度なGPU認識
Authors: Aditya Agarwal, Yupeng Han, Maxim Likhachev
Abstract要約: 本稿では,ポーズ推定のための探索手法であるPERCH 2.0を提案する。提案手法は, PERCHの100倍の高速化を実現するとともに, 最先端のデータ駆動手法よりも精度が高いことを示す。
参考スコア（独自算出の注目度）: 14.812000578324481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pose estimation of known objects is fundamental to tasks such as robotic grasping and manipulation. The need for reliable grasping imposes stringent accuracy requirements on pose estimation in cluttered, occluded scenes in dynamic environments. Modern methods employ large sets of training data to learn features in order to find correspondence between 3D models and observed data. However these methods require extensive annotation of ground truth poses. An alternative is to use algorithms that search for the best explanation of the observed scene in a space of possible rendered scenes. A recently developed algorithm, PERCH (PErception Via SeaRCH) does so by using depth data to converge to a globally optimum solution using a search over a specially constructed tree. While PERCH offers strong guarantees on accuracy, the current formulation suffers from low scalability owing to its high runtime. In addition, the sole reliance on depth data for pose estimation restricts the algorithm to scenes where no two objects have the same shape. In this work, we propose PERCH 2.0, a novel perception via search strategy that takes advantage of GPU acceleration and RGB data. We show that our approach can achieve a speedup of 100x over PERCH, as well as better accuracy than the state-of-the-art data-driven approaches on 6-DoF pose estimation without the need for annotating ground truth poses in the training data. Our code and video are available at https://sbpl-cruz.github.io/perception/.
Abstract（参考訳）: 既知のオブジェクトのポース推定は、ロボットの把握や操作といったタスクに不可欠である。確実な把握の必要性は、動的環境における乱雑で隠蔽されたシーンのポーズ推定に厳密な精度要件を課す。現代の手法では,3次元モデルと観測データとの対応を見つけるために,大量のトレーニングデータを用いて特徴を学習する。しかし、これらの方法は根拠真理の広範な注釈を必要とする。別の方法として、レンダリング可能なシーンの空間で観察されたシーンの最良の説明を求めるアルゴリズムを使う方法がある。最近開発された PERCH (PErception Via SeaRCH) アルゴリズムは、深度データを用いて、特別に構築された木を探索して、グローバルに最適な解に収束する。 PERCHは精度に強い保証を提供するが、現在の定式化は高いランタイムのためスケーラビリティの低下に悩まされている。さらに、ポーズ推定のための深さデータのみに依存するため、アルゴリズムは2つのオブジェクトが同じ形状のシーンに制限される。本稿では,GPUアクセラレーションとRGBデータを活用する検索戦略による新しい認識手法であるPERCH 2.0を提案する。その結果,本手法は6自由度姿勢推定における最先端データ駆動アプローチよりも100倍のスピードアップを達成でき,トレーニングデータに基礎的真理をアノテートする必要がなく,精度が向上することが示された。私たちのコードとビデオはhttps://sbpl-cruz.github.io/perception/で閲覧できます。

関連論文リスト

DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
Shape-biased Texture Agnostic Representations for Improved Textureless and Metallic Object Detection and 6D Pose Estimation [9.227450931458907]
テクスチャレスおよびメタリックオブジェクトは、CNNの視覚的手がかりやテクスチャバイアスが少ないため、依然として重要な課題である。形状バイアスをCNNトレーニングに誘導する手法を提案する。この手法は、シームレスなデータレンダリングと、一貫性のあるテクスチャ面のないトレーニングデータの結果を可能にする。
論文参考訳（メタデータ） (2024-02-07T14:18:19Z)
Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文参考訳（メタデータ） (2024-01-31T18:59:12Z)
Metrically Scaled Monocular Depth Estimation through Sparse Priors for Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-25T16:32:31Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文参考訳（メタデータ） (2022-03-17T16:16:24Z)
Iterative Corresponding Geometry: Fusing Region and Depth for Highly Efficient 3D Tracking of Textureless Objects [25.448657318818764]
ICGは領域と深度情報を融合させる新しい確率的トラッカーであり、物体形状のみを必要とする。本手法では, 対応線を配置し, ポーズを反復的に洗練する。 YCB-Video、OPT、Choiデータセットの実験は、テクスチャ化されたオブジェクトであっても、我々のアプローチが現在の技術よりも優れていることを示した。
論文参考訳（メタデータ） (2022-03-10T12:30:50Z)
Analysis of voxel-based 3D object detection methods efficiency for real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文参考訳（メタデータ） (2021-05-21T12:40:59Z)
PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。この2つのタスクを同一のメトリック空間で統一するモデルを提案する。提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-17T05:11:38Z)
Bridging the Reality Gap for Pose Estimation Networks using Sensor-Based Domain Randomization [1.4290119665435117]
合成データに基づいて訓練された手法は、2Dの領域ランダム化をより発展させるため、2D画像を使用する。提案手法では,3次元データをネットワークに統合し,ポーズ推定の精度を高める。 3つの大規模ポーズ推定ベンチマーク実験により, 提案手法は, 合成データを用いた従来手法よりも優れていたことがわかった。
論文参考訳（メタデータ） (2020-11-17T09:12:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。