論文の概要: Automatically Prepare Training Data for YOLO Using Robotic In-Hand
Observation and Synthesis
- arxiv url: http://arxiv.org/abs/2301.01441v1
- Date: Wed, 4 Jan 2023 04:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:58:52.244443
- Title: Automatically Prepare Training Data for YOLO Using Robotic In-Hand
Observation and Synthesis
- Title(参考訳): ロボットインハンド観察と合成によるYOLOの自動訓練データ作成
- Authors: Hao Chen, Weiwei Wan, Masaki Matsushita, Takeyuki Kotaka, Kensuke
Harada
- Abstract要約: 本稿では,ロボットが収集した限られたデータセットを拡大するために,ロボット内観察とデータ合成を組み合わせることを提案する。
収集された合成画像を組み合わせて、ディープ検出ニューラルネットワークをトレーニングする。
その結果, 観察画像と合成画像の組み合わせが手動データ作成に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 14.034128227585143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning methods have recently exhibited impressive performance in
object detection. However, such methods needed much training data to achieve
high recognition accuracy, which was time-consuming and required considerable
manual work like labeling images. In this paper, we automatically prepare
training data using robots. Considering the low efficiency and high energy
consumption in robot motion, we proposed combining robotic in-hand observation
and data synthesis to enlarge the limited data set collected by the robot. We
first used a robot with a depth sensor to collect images of objects held in the
robot's hands and segment the object pictures. Then, we used a copy-paste
method to synthesize the segmented objects with rack backgrounds. The collected
and synthetic images are combined to train a deep detection neural network. We
conducted experiments to compare YOLOv5x detectors trained with images
collected using the proposed method and several other methods. The results
showed that combined observation and synthetic images led to comparable
performance to manual data preparation. They provided a good guide on
optimizing data configurations and parameter settings for training detectors.
The proposed method required only a single process and was a low-cost way to
produce the combined data. Interested readers may find the data sets and
trained models from the following GitHub repository: github.com/wrslab/tubedet
- Abstract(参考訳): 深層学習法は近年,物体検出において顕著な性能を示した。
しかし、高い認識精度を達成するために多くのトレーニングデータが必要であり、画像のラベル付けのようなかなりの手作業が必要であった。
本稿では,ロボットによるトレーニングデータの自動作成を行う。
ロボット動作における低効率・高エネルギー化を考慮し,ロボットが収集した限られたデータセットを拡大するために,ロボット内観察とデータ合成を組み合わせることを提案した。
まず、深度センサーを備えたロボットを用いて、ロボットの手にある物体の画像を収集し、対象画像を分割した。
そして、コピーペースト法を用いて、ラック背景を持つセグメント化されたオブジェクトを合成した。
収集された合成画像を組み合わせて、ディープ検出ニューラルネットワークをトレーニングする。
提案手法と他の方法を用いた画像を用いたYOLOv5x検出器の比較実験を行った。
その結果, 観察画像と合成画像の組み合わせが手動データ作成に匹敵する性能を示した。
彼らは、データ設定とパラメータ設定をトレーニングディテクターに最適化するための優れたガイドを提供した。
提案手法は単一のプロセスしか必要とせず,複合データを生成するための低コストな方法であった。
興味深い読者は、以下のGitHubリポジトリからデータセットとトレーニングされたモデルを見つけることができる。
関連論文リスト
- Redefining Data Pairing for Motion Retargeting Leveraging a Human Body Prior [4.5409191511532505]
MR HuBo(Motion Retargeting leverageing a HUman BOdy prior)は,高品質な上半身対ロボットを収集する費用効率の良い方法である。
また、大量のペアデータに基づいて教師付き学習によってトレーニングできる2段階の運動ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T04:32:54Z) - Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。