論文の概要: IMD: A 6-DoF Pose Estimation Benchmark for Industrial Metallic Objects
- arxiv url: http://arxiv.org/abs/2509.11680v1
- Date: Mon, 15 Sep 2025 08:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.197337
- Title: IMD: A 6-DoF Pose Estimation Benchmark for Industrial Metallic Objects
- Title(参考訳): IMD:工業用金属材料の6-DoF評価ベンチマーク
- Authors: Ruimin Ma, Sebastian Zudaire, Zhen Li, Chi Zhang,
- Abstract要約: 産業用途に適した新しいデータセットとベンチマークである textitIndustrial Metallic dataset (IMD) を提案する。
このデータセットは45の産業用部品からなり、自然の屋内照明の下でRGB-Dカメラで撮影する。
このベンチマークは、ビデオオブジェクトセグメンテーション、6Dポーズトラッキング、ワンショット6Dポーズ推定を含む3つのタスクをサポートする。
- 参考スコア(独自算出の注目度): 4.959150853096882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Object 6DoF (6D) pose estimation is essential for robotic perception, especially in industrial settings. It enables robots to interact with the environment and manipulate objects. However, existing benchmarks on object 6D pose estimation primarily use everyday objects with rich textures and low-reflectivity, limiting model generalization to industrial scenarios where objects are often metallic, texture-less, and highly reflective. To address this gap, we propose a novel dataset and benchmark namely \textit{Industrial Metallic Dataset (IMD)}, tailored for industrial applications. Our dataset comprises 45 true-to-scale industrial components, captured with an RGB-D camera under natural indoor lighting and varied object arrangements to replicate real-world conditions. The benchmark supports three tasks, including video object segmentation, 6D pose tracking, and one-shot 6D pose estimation. We evaluate existing state-of-the-art models, including XMem and SAM2 for segmentation, and BundleTrack and BundleSDF for pose estimation, to assess model performance in industrial contexts. Evaluation results show that our industrial dataset is more challenging than existing household object datasets. This benchmark provides the baseline for developing and comparing segmentation and pose estimation algorithms that better generalize to industrial robotics scenarios.
- Abstract(参考訳): オブジェクト6DoF (6D) のポーズ推定は、特に産業環境ではロボットの知覚に不可欠である。
ロボットは環境と対話し、物体を操作することができる。
しかし、オブジェクト6Dの既存のベンチマークでは、主にリッチテクスチャと低反射率の日常的なオブジェクトを使用し、オブジェクトが金属的でテクスチャレスで反射性の高い産業シナリオにモデル一般化を制限している。
このギャップに対処するため、産業用途に適した新しいデータセットとベンチマークである「textit{Industrial Metallic Dataset (IMD)」を提案する。
我々のデータセットは45個の実規模産業部品から構成されており、RGB-Dカメラで自然の屋内照明下で撮影され、現実世界の環境を再現するための様々な物体配置で構成されている。
このベンチマークは、ビデオオブジェクトセグメンテーション、6Dポーズトラッキング、ワンショット6Dポーズ推定を含む3つのタスクをサポートする。
XMemとSAM2のセグメンテーション、BundleTrackとBundleSDFのポーズ推定など、既存の最先端モデルを評価し、産業環境でのモデル性能を評価する。
評価結果から,我々の産業データセットは既存の家庭用オブジェクトデータセットよりも困難であることが示唆された。
このベンチマークは、セグメンテーションの開発と比較のためのベースラインを提供し、産業ロボティクスのシナリオをより一般化するポーズ推定アルゴリズムを提供する。
関連論文リスト
- MR6D: Benchmarking 6D Pose Estimation for Mobile Robots [0.118749525824656]
既存の6Dポーズ推定データセットは、主にロボットアームマニピュレータによって処理される小さな家庭用オブジェクトに焦点を当てている。
産業環境における移動ロボットの6次元ポーズ推定のためのデータセットであるMR6Dを紹介する。
論文 参考訳(メタデータ) (2025-08-19T12:21:34Z) - CHIP: A multi-sensor dataset for 6D pose estimation of chairs in industrial settings [4.310149395049504]
CHIPは、実際の産業環境における椅子の6次元ポーズ推定のために設計された最初のデータセットである。
CHIPは、ロボットのキネマティクスから自動的に派生した6Dポーズに注釈付けされた77,811RGBD画像からなる。
結果は、データセットがもたらすユニークな課題を強調しながら、改善の余地がかなりあることを示している。
論文 参考訳(メタデータ) (2025-06-11T13:13:31Z) - XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity [46.05421425745179]
XYZ-IBDは6Dポーズ推定のためのビンピッキングデータセットである。
ミリ精度アノテーションによる本物のロボット操作のシナリオを反映している。
データセットには15のテクスチャなし、金属で、ほとんど対称な形状と大きさのオブジェクトが含まれている。
論文 参考訳(メタデータ) (2025-05-31T15:15:27Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z) - Investigation of the Impact of Synthetic Training Data in the Industrial
Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。
評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T18:33:27Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。