Fugu-MT 論文翻訳(概要): Multimodal Object Detection using Depth and Image Data for Manufacturing Parts

論文の概要: Multimodal Object Detection using Depth and Image Data for Manufacturing Parts

arxiv url: http://arxiv.org/abs/2411.09062v1
Date: Wed, 13 Nov 2024 22:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.506675
Title: Multimodal Object Detection using Depth and Image Data for Manufacturing Parts
Title（参考訳）: 深度と画像データを用いた製造部品のマルチモーダル物体検出
Authors: Nazanin Mahjourian, Vinh Nguyen,
Abstract要約: 本研究では,赤緑色(RGB)カメラと3Dポイントクラウドセンサを組み合わせたマルチセンサシステムを提案する。 RGBと深度データの両方を処理するために,新しいマルチモーダルオブジェクト検出法を開発した。その結果、マルチモーダルモデルは、確立されたオブジェクト検出基準に基づいて、深さのみのベースラインとRGBのみのベースラインを著しく上回ることがわかった。
参考スコア（独自算出の注目度）: 1.0819408603463427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Manufacturing requires reliable object detection methods for precise picking and handling of diverse types of manufacturing parts and components. Traditional object detection methods utilize either only 2D images from cameras or 3D data from lidars or similar 3D sensors. However, each of these sensors have weaknesses and limitations. Cameras do not have depth perception and 3D sensors typically do not carry color information. These weaknesses can undermine the reliability and robustness of industrial manufacturing systems. To address these challenges, this work proposes a multi-sensor system combining an red-green-blue (RGB) camera and a 3D point cloud sensor. The two sensors are calibrated for precise alignment of the multimodal data captured from the two hardware devices. A novel multimodal object detection method is developed to process both RGB and depth data. This object detector is based on the Faster R-CNN baseline that was originally designed to process only camera images. The results show that the multimodal model significantly outperforms the depth-only and RGB-only baselines on established object detection metrics. More specifically, the multimodal model improves mAP by 13% and raises Mean Precision by 11.8% in comparison to the RGB-only baseline. Compared to the depth-only baseline, it improves mAP by 78% and raises Mean Precision by 57%. Hence, this method facilitates more reliable and robust object detection in service to smart manufacturing applications.
Abstract（参考訳）: 製造には、様々な種類の製造部品や部品を正確に抽出・処理するための信頼性の高い物体検出方法が必要である。従来の物体検出方法は、カメラからの2D画像のみを利用するか、ライダーや同様の3Dセンサーからの3Dデータを使用する。しかし、これらのセンサーには弱点と限界がある。カメラには奥行きの認識がなく、3Dセンサーは一般的に色情報を持っていない。これらの弱点は工業生産システムの信頼性と堅牢性を損なう可能性がある。これらの課題に対処するため、赤緑色(RGB)カメラと3Dポイントクラウドセンサーを組み合わせたマルチセンサシステムを提案する。 2つのセンサーは、2つのハードウェアデバイスから取得したマルチモーダルデータの正確なアライメントのために調整される。 RGBと深度データの両方を処理するために,新しいマルチモーダルオブジェクト検出法を開発した。この物体検出器は、もともとカメラ画像のみを処理するように設計されたFaster R-CNNベースラインに基づいている。その結果、マルチモーダルモデルは、確立されたオブジェクト検出基準に基づいて、深さのみのベースラインとRGBのみのベースラインを著しく上回ることがわかった。具体的には、マルチモーダルモデルはmAPを13%改善し、平均精度を11.8%向上させる。深さのみのベースラインと比較して、mAPを78%改善し、平均精度を57%向上させる。したがって、この方法はスマート製造アプリケーションに対して、より信頼性が高く堅牢なオブジェクト検出を容易にする。

関連論文リスト

Performance Assessment of Feature Detection Methods for 2-D FS Sonar Imagery [11.23455335391121]
主な課題は、一様でない照明と、濁った環境での視界の低下である。高周波フォワードフォワードソナーカメラはこれらの問題に対処する。 5種類のソナー装置の実際のソナー画像を用いた特徴検出器の評価を行った。
論文参考訳（メタデータ） (2024-09-11T04:35:07Z)
Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。 3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文参考訳（メタデータ） (2024-04-10T03:54:53Z)
Joint object detection and re-identification for 3D obstacle multi-camera systems [47.87501281561605]
本研究は,カメラとライダー情報を用いた物体検出ネットワークに新たな改良を加えたものである。同じ車両内の隣のカメラにまたがって物体を再識別する作業のために、追加のブランチが組み込まれている。その結果,従来の非最大抑圧(NMS)技術よりも,この手法が優れていることが示された。
論文参考訳（メタデータ） (2023-10-09T15:16:35Z)
Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization [13.473742114288616]
既知の環境下でオブジェクトを自律的に検出・ローカライズするフレームワークを提案する。フレームワークは,RGBデータによる環境理解,マルチモーダルセンサ融合による深度推定,アーティファクト管理という,3つの重要な要素で構成されている。実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出できることがわかった。
論文参考訳（メタデータ） (2023-07-03T15:51:39Z)
Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。 3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文参考訳（メタデータ） (2023-05-12T18:08:51Z)
FloatingFusion: Depth from ToF and Image-stabilized Stereo Cameras [37.812681878193914]
スマートフォンには、飛行時間(ToF)深度センサーと複数のカラーカメラを備えたマルチモーダルカメラシステムが搭載されている。高精度な高解像度の深度を作り出すことは、ToFセンサーの低解像度と限られた能動照明力のために依然として困難である。本稿では,1枚のスナップショットからカメラパラメータを推定できる高密度2D/3Dマッチングに基づく自動校正手法を提案する。
論文参考訳（メタデータ） (2022-10-06T09:57:09Z)
DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image [39.389538555506256]
我々は,高分解能かつ高精度な深度測定機能を備えた軽量ToFセンサを実現する新しい手法であるDELTARを提案する。 DELTARの中核として、深度分布用にカスタマイズされた特徴抽出器と注意に基づくニューラルアーキテクチャを提案し、色とToF領域からの情報を効率的に融合させる。実験により,提案手法は深度分解能と深度超解像のために設計された既存のフレームワークよりも精度が高く,コモディティレベルのRGB-Dセンサで同等の性能が得られることが示された。
論文参考訳（メタデータ） (2022-09-27T13:11:37Z)
Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文参考訳（メタデータ） (2022-04-07T10:45:32Z)
Learning Enriched Illuminants for Cross and Single Sensor Color Constancy [182.4997117953705]
ネットワークをトレーニングするためのクロスセンサ自己教師型トレーニングを提案する。センサに依存しない方法で人工発光体をランダムにサンプリングすることでネットワークを訓練する。実験により、我々のクロスセンサモデルとシングルセンサーモデルは、他の最先端手法よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2022-03-21T15:45:35Z)
Joint Learning of Salient Object Detection, Depth Estimation and Contour Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文参考訳（メタデータ） (2022-03-09T17:20:18Z)
CalibDNN: Multimodal Sensor Calibration for Perception Using Deep Neural Networks [27.877734292570967]
本稿では,マルチモーダルセンサ,特にLiDAR-Cameraペア間の正確な校正のための新しいディープラーニング駆動技術(CalibDNN)を提案する。全体の処理は、単一のモデルと単一のイテレーションで完全に自動です。異なる手法と異なるデータセットに対する広範な実験の結果は、最先端の性能を示している。
論文参考訳（メタデータ） (2021-03-27T02:43:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。