論文の概要: Fringe Projection Based Vision Pipeline for Autonomous Hard Drive Disassembly
- arxiv url: http://arxiv.org/abs/2604.17231v1
- Date: Sun, 19 Apr 2026 03:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.405946
- Title: Fringe Projection Based Vision Pipeline for Autonomous Hard Drive Disassembly
- Title(参考訳): フリージプロジェクションに基づく自律型ハードディスク分解のためのビジョンパイプライン
- Authors: Badrinath Balasubramaniam, Vignesh Suresh, Benjamin Metcalf, Beiwen Li,
- Abstract要約: ハードディスクドライブ(HDD)は、ロボット分解を必要とする貴重なe-wasteストリームを構成する。
現在の方法は断片化され、堅牢な3Dセンシングが欠如し、高速なローカライゼーションが欠如している。
本稿では,FPP(Fringe Projection Profilometry)モジュールを用いた3次元センシングを行う自律型ビジョンパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.027998963147546144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unrecovered e-waste represents a significant economic loss. Hard disk drives (HDDs) comprise a valuable e-waste stream necessitating robotic disassembly. Automating the disassembly of HDDs requires holistic 3D sensing, scene understanding, and fastener localization, however current methods are fragmented, lack robust 3D sensing, and lack fastener localization. We propose an autonomous vision pipeline which performs 3D sensing using a Fringe Projection Profilometry (FPP) module, with selective triggering of a depth completion module where FPP fails, and integrates this module with a lightweight, real-time instance segmentation network for scene understanding and critical component localization. By utilizing the same FPP camera-projector system for both our depth sensing and component localization modules, our depth maps and derived 3D geometry are inherently pixel-wise aligned with the segmentation masks without registration, providing an advantage over RGB-D perception systems common in industrial sensing. We optimize both our trained depth completion and instance segmentation networks for deployment-oriented inference. The proposed system achieves a box mAP@50 of 0.960 and mask mAP@50 of 0.957 for instance segmentation, while the selected depth completion configuration with the Depth Anything V2 Base backbone achieves an RMSE of 2.317 mm and MAE of 1.836 mm; the Platter Facing learned inference stack achieved a combined latency of 12.86 ms and a throughput of 77.7 Frames Per Second (FPS) on the evaluation workstation. Finally, we adopt a sim-to-real transfer learning approach to augment our physical dataset. The proposed perception pipeline provides both high-fidelity semantic and spatial data which can be valuable for downstream robotic disassembly. The synthetic dataset developed for HDD instance segmentation will be made publicly available.
- Abstract(参考訳): 未回収のe-wasteは、大きな経済的な損失である。
ハードディスクドライブ(HDD)は、ロボット分解を必要とする貴重なe-wasteストリームを構成する。
HDDの分解を自動化するには、全体的な3Dセンシング、シーン理解、高速なローカライゼーションが必要であるが、現在の手法は断片化されており、堅牢な3Dセンシングが欠如し、高速なローカライゼーションが欠如している。
本研究では,FPPが故障する深度完了モジュールを選択的にトリガーするFrnge Projection Profilometry (FPP) モジュールを用いて3Dセンシングを行う自律ビジョンパイプラインを提案し,このモジュールをシーン理解とクリティカルコンポーネントの局所化のための軽量でリアルタイムなインスタンスセグメンテーションネットワークに統合する。
同じFPPカメラ・プロジェクタシステムを用いて深度センサとコンポーネントの局所化モジュールを併用することにより、深度マップと3次元形状は本質的に、登録なしでセグメンテーションマスクとピクセルワイドに整合し、産業用センシングに共通するRGB-D認識システムよりも有利となる。
トレーニングされた深度補完と、デプロイメント指向推論のためのインスタンスセグメンテーションネットワークの両方を最適化します。
提案システムは、0.960のボックスmAP@50と0.957のマスクmAP@50を実現し、Depth Anything V2 Baseのバックボーンで選択した深さ補完構成はRMSEが2.317 mm、MAEが1.836 mm、Plattter Facing学習推論スタックが12.86 ms、スループットが77.7 Frames Per Second(FPS)である。
最後に、物理データセットを増強するために、sim-to-real転送学習アプローチを採用する。
提案した知覚パイプラインは、下流ロボットの分解に有用な高忠実度セマンティックデータと空間データの両方を提供する。
HDDインスタンスセグメンテーションのために開発された合成データセットが公開される。
関連論文リスト
- TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。
FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文 参考訳(メタデータ) (2025-10-17T07:36:54Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - AuxDepthNet: Real-Time Monocular 3D Object Detection with Depth-Sensitive Features [13.48200434855076]
AuxDepthNetはリアルタイムなモノクロ3Dオブジェクト検出のための効率的なフレームワークである。
外部の深度マップや事前訓練された深度モデルへの依存をなくす。
スコアは34.11%(簡単)、25.18%(モデレート)、21.90%(ハード)で、IoU閾値は0.7である。
論文 参考訳(メタデータ) (2025-01-07T11:07:32Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Domain Randomization-Enhanced Depth Simulation and Restoration for
Perceiving and Grasping Specular and Transparent Objects [28.84776177634971]
深度復元のための強力なRGBD融合ネットワークSwinDRNetを提案する。
また,ドメインランダム化強化深度シミュレーション(DREDS)によるアクティブステレオ深度システムのシミュレーションも提案する。
我々の深度復元は下流タスクの性能を効果的に向上させることを示す。
論文 参考訳(メタデータ) (2022-08-07T19:17:16Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。