論文の概要: Rapid Pose Label Generation through Sparse Representation of Unknown
Objects
- arxiv url: http://arxiv.org/abs/2011.03790v1
- Date: Sat, 7 Nov 2020 15:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:44:32.928250
- Title: Rapid Pose Label Generation through Sparse Representation of Unknown
Objects
- Title(参考訳): 未知物体のスパース表現による素早いポーズラベル生成
- Authors: Rohan Pratap Singh, Mehdi Benallegue, Yusuke Yoshiyasu, Fumio Kanehiro
- Abstract要約: 本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
- 参考スコア(独自算出の注目度): 7.32172860877574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Convolutional Neural Networks (CNNs) have been successfully deployed on
robots for 6-DoF object pose estimation through visual perception. However,
obtaining labeled data on a scale required for the supervised training of CNNs
is a difficult task - exacerbated if the object is novel and a 3D model is
unavailable. To this end, this work presents an approach for rapidly generating
real-world, pose-annotated RGB-D data for unknown objects. Our method not only
circumvents the need for a prior 3D object model (textured or otherwise) but
also bypasses complicated setups of fiducial markers, turntables, and sensors.
With the help of a human user, we first source minimalistic labelings of an
ordered set of arbitrarily chosen keypoints over a set of RGB-D videos. Then,
by solving an optimization problem, we combine these labels under a world frame
to recover a sparse, keypoint-based representation of the object. The sparse
representation leads to the development of a dense model and the pose labels
for each image frame in the set of scenes. We show that the sparse model can
also be efficiently used for scaling to a large number of new scenes. We
demonstrate the practicality of the generated labeled dataset by training a
pipeline for 6-DoF object pose estimation and a pixel-wise segmentation
network.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN)は、6-DoFオブジェクトのポーズ推定を視覚的に行うロボットに成功している。
しかし、CNNの教師付きトレーニングに必要なスケールでラベル付きデータを取得することは難しい作業であり、オブジェクトが新規で3Dモデルが利用できない場合、さらに悪化する。
そこで本研究では,未知のオブジェクトに対する実世界,ポーズアノテートしたRGB-Dデータを高速に生成する手法を提案する。
本手法は,事前の3次元物体モデル(テキスト化やその他)の必要性を回避するだけでなく,fiducial markers,turntables,およびsensorsの複雑なセットアップをバイパスする。
人間の助けを借りて、まずRGB-Dビデオのセット上で任意に選択されたキーポイントのセットを最小限のラベル付けする。
そして、最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
スパース表現は、シーンの集合内の各画像フレームに対する密集したモデルとポーズラベルの開発に繋がる。
スパースモデルは多数の新しいシーンへのスケーリングにも効果的に使用できることを示す。
本研究では,6自由度物体ポーズ推定のためのパイプラインと画素分割ネットワークを訓練し,生成されたラベル付きデータセットの実用性を示す。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Category-Agnostic 6D Pose Estimation with Conditional Neural Processes [19.387280883044482]
未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。
本アルゴリズムは,オブジェクトの表現をカテゴリに依存しない方法で学習し,オブジェクトカテゴリをまたいだ強力な一般化機能を実現する。
論文 参考訳(メタデータ) (2022-06-14T20:46:09Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence [15.815583594196488]
2D画像から下降する3Dオブジェクトは、減次元情報から副次元を推測する挑戦的なタスクです。
3Dアノテーションの達成は高価かつ時間を要するため、大量の3Dデータセットを得ることは困難である。
本研究では, 自己性能を克服するために, 画像シーケンス内の物体の多重観測を利用する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-14T18:59:08Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Self-Supervised Object-in-Gripper Segmentation from Robotic Motions [27.915309216800125]
ロボットが把握した未知の物体をセグメント化するための頑健な解法を提案する。
我々はRGBビデオシーケンスにおける動きと時間的手がかりを利用する。
当社のアプローチは、カメラキャリブレーションや3Dモデル、あるいは潜在的に不完全な深度データとは独立して、完全に自己管理されている。
論文 参考訳(メタデータ) (2020-02-11T15:44:46Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。