論文の概要: Object Pose Estimation Annotation Pipeline for Multi-view Monocular
Camera Systems in Industrial Settings
- arxiv url: http://arxiv.org/abs/2310.14914v1
- Date: Mon, 23 Oct 2023 13:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 19:57:30.181829
- Title: Object Pose Estimation Annotation Pipeline for Multi-view Monocular
Camera Systems in Industrial Settings
- Title(参考訳): 産業用多視点単眼カメラシステムのためのオブジェクト空間推定アノテーションパイプライン
- Authors: Hazem Youssef, Frederik Polachowski, J\'er\^ome Rutinowski, Moritz
Roidl and Christopher Reining
- Abstract要約: 手作業を必要とせずにモノクロ画像の大規模なデータセットのアノテーションにアプローチする。
提案手法は,空間内のカメラをローカライズし,モーションキャプチャーシステムで位置を統一し,線形マッピングを用いて興味ある物体の3次元モデルに実際の6Dポーズ位置を投影する。
- 参考スコア(独自算出の注目度): 2.249916681499244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object localization, and more specifically object pose estimation, in large
industrial spaces such as warehouses and production facilities, is essential
for material flow operations. Traditional approaches rely on artificial
artifacts installed in the environment or excessively expensive equipment, that
is not suitable at scale. A more practical approach is to utilize existing
cameras in such spaces in order to address the underlying pose estimation
problem and to localize objects of interest. In order to leverage
state-of-the-art methods in deep learning for object pose estimation, large
amounts of data need to be collected and annotated. In this work, we provide an
approach to the annotation of large datasets of monocular images without the
need for manual labor. Our approach localizes cameras in space, unifies their
location with a motion capture system, and uses a set of linear mappings to
project 3D models of objects of interest at their ground truth 6D pose
locations. We test our pipeline on a custom dataset collected from a system of
eight cameras in an industrial setting that mimics the intended area of
operation. Our approach was able to provide consistent quality annotations for
our dataset with 26, 482 object instances at a fraction of the time required by
human annotators.
- Abstract(参考訳): 倉庫や生産施設などの大規模産業空間における物体位置推定は,物質流の操作に不可欠である。
従来のアプローチは、環境や過度に高価な機器にインストールされた人工的な人工物に依存しており、スケールには適さない。
より実用的なアプローチは、基礎となるポーズ推定問題に対処し、関心のあるオブジェクトをローカライズするために、そのような空間で既存のカメラを活用することである。
オブジェクトポーズ推定のためのディープラーニングで最先端の手法を活用するためには、大量のデータを収集して注釈付けする必要がある。
本研究では,手作業を必要とせず,モノクロ画像の大規模データセットのアノテーションへのアプローチを提案する。
提案手法は,空間内のカメラをローカライズし,モーションキャプチャーシステムで位置を統一し,線形マッピングを用いて興味ある物体の3次元モデルに実際の6Dポーズ位置を投影する。
目的とする運用領域を模倣した産業環境で、8台のカメラのシステムから収集したカスタムデータセットでパイプラインをテストする。
当社のアプローチでは、アノテータが要求する時間のごく一部で、26,482のオブジェクトインスタンスでデータセットに一貫した品質アノテーションを提供することができました。
関連論文リスト
- KRONC: Keypoint-based Robust Camera Optimization for 3D Car Reconstruction [58.04846444985808]
KRONCは、オブジェクトに関する事前知識を活用して、セマンティックキーポイントを通してその表現を再構築することで、ビューポーズを推論する新しいアプローチである。
車両シーンに焦点を当てたKRONCは、キーポイントのバックプロジェクションを特異点に収束させることを目的とした光最適化問題の解として、ビューの位置を推定することができる。
論文 参考訳(メタデータ) (2024-09-09T08:08:05Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose
Annotations, Affordances, and Reconstructions [17.9178233068395]
本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。
このデータセットは、17のカテゴリで212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。
6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。
論文 参考訳(メタデータ) (2023-08-02T23:59:59Z) - LocPoseNet: Robust Location Prior for Unseen Object Pose Estimation [69.70498875887611]
LocPoseNetは、見えないオブジェクトに先立って、ロバストにロケーションを学習することができる。
提案手法は,LINEMOD と GenMOP において,既存の作業よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-29T15:21:34Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Continuous close-range 3D object pose estimation [1.4502611532302039]
視覚に基づく3Dポーズ推定は、固定位置に配置されない可能性のあるオブジェクトを正確に扱う必要がある。
本稿では,勾配近似粒子フィルタを用いた3次元ポーズ推定手法を提案する。
これにより、タスク実行中にこの手法をオンラインに適用して、貴重なサイクル時間を節約することができる。
論文 参考訳(メタデータ) (2020-10-02T07:48:17Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。