論文の概要: Object Detection Using Sim2Real Domain Randomization for Robotic
Applications
- arxiv url: http://arxiv.org/abs/2208.04171v1
- Date: Mon, 8 Aug 2022 14:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 14:08:23.633719
- Title: Object Detection Using Sim2Real Domain Randomization for Robotic
Applications
- Title(参考訳): sim2real domain randomizationを用いたロボット用物体検出
- Authors: D\'aniel Horv\'ath, G\'abor Erd\H{o}s, Zolt\'an Istenes, Tom\'a\v{s}
Horv\'ath, and S\'andor F\"oldi
- Abstract要約: オブジェクト検出のための領域ランダム化に基づくSIM2real Transfer Learning法を提案する。
最先端の畳み込みニューラルネットワークであるYOLOv4は、さまざまな種類の産業オブジェクトを検出するために訓練されている。
我々のソリューションは、トレーニングに1つの実像のみを使用することで、類似したオブジェクトのクラスを確実に区別できるため、産業ニーズにマッチする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robots working in unstructured environments must be capable of sensing and
interpreting their surroundings. One of the main obstacles of deep learning
based models in the field of robotics is the lack of domain-specific labeled
data for different industrial applications. In this paper, we propose a
sim2real transfer learning method based on domain randomization for object
detection with which labeled synthetic datasets of arbitrary size and object
types can be automatically generated. Subsequently, a state-of-the-art
convolutional neural network, YOLOv4, is trained to detect the different types
of industrial objects. With the proposed domain randomization method, we could
shrink the reality gap to a satisfactory level, achieving 86.32% and 97.38%
mAP50 scores respectively in the case of zero-shot and one-shot transfers, on
our manually annotated dataset containing 190 real images. On a GeForce RTX
2080 Ti GPU, the data generation process takes less than 0.5s per image and the
training lasts around 12h which makes it convenient for industrial use. Our
solution matches industrial needs as it can reliably differentiate similar
classes of objects by using only 1 real image for training. To our best
knowledge, this is the only work thus far satisfying these constraints.
- Abstract(参考訳): 非構造環境で働くロボットは、周囲を感知し、解釈することができる必要がある。
ロボット工学の分野におけるディープラーニングモデルの主な障害の1つは、異なる産業応用のためのドメイン固有のラベル付きデータがないことである。
本稿では,任意のサイズとオブジェクトタイプのラベル付き合成データセットを自動生成可能なオブジェクト検出のためのドメインランダム化に基づくsim2realトランスファー学習手法を提案する。
その後、最先端の畳み込みニューラルネットワーク、YOLOv4が訓練され、異なるタイプの産業オブジェクトを検出する。
提案手法では,190実画像を含む手作業による注釈付きデータセット上で,ゼロショットとワンショット転送の場合,それぞれ86.32%と97.38%のmap50スコアを達成することで,現実のギャップを満足のいくレベルに縮小することができる。
GeForce RTX 2080 Ti GPUでは、データ生成プロセスは1イメージあたり0.5秒未満で、トレーニングは12時間程度続くため、産業用途に便利である。
我々のソリューションは、トレーニングに1つの実像のみを使用することで、類似したオブジェクトのクラスを確実に区別できるため、産業ニーズにマッチする。
私たちの知る限りでは、これらの制約を満たすのはこれが唯一の作業です。
関連論文リスト
- Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - Towards Precise Model-free Robotic Grasping with Sim-to-Real Transfer
Learning [11.470950882435927]
本稿では,ロボットの把持ネットワークについて述べる。
物理ロボット実験では,1つの既知の物体と,90.91%の成功率を持つ新しい複合形状の家庭用物体を把握した。
提案した把握フレームワークは、既知の物体と未知の物体の両方において、最先端の2つの手法より優れていた。
論文 参考訳(メタデータ) (2023-01-28T16:57:19Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for
Robotic Bin-picking [98.5984733963713]
コスト効率の良いロボットグルーピングを容易にするために,シミュレート・トゥ・リアルな6次元オブジェクトのポーズ推定のための反復的自己学習フレームワークを提案する。
我々は、豊富な仮想データを合成するためのフォトリアリスティックシミュレータを構築し、これを初期ポーズ推定ネットワークのトレーニングに利用する。
このネットワークは教師モデルの役割を担い、未ラベルの実データに対するポーズ予測を生成する。
論文 参考訳(メタデータ) (2022-04-14T15:54:01Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。