論文の概要: KOVIS: Keypoint-based Visual Servoing with Zero-Shot Sim-to-Real
Transfer for Robotics Manipulation
- arxiv url: http://arxiv.org/abs/2007.13960v1
- Date: Tue, 28 Jul 2020 02:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:47:17.012621
- Title: KOVIS: Keypoint-based Visual Servoing with Zero-Shot Sim-to-Real
Transfer for Robotics Manipulation
- Title(参考訳): KOVIS:Zero-Shot Sim-to-Real Transferによるロボット操作のためのキーポイントベースビジュアルサーボ
- Authors: En Yen Puang and Keng Peng Tee and Wei Jing
- Abstract要約: KOVISは、目視ステレオカメラシステムを用いたロボット操作作業のための、学習ベースで校正不要なビジュアルサーボ手法である。
シミュレーション環境でのみ、ディープニューラルネットワークをトレーニングします。
本研究では,ロボット操作タスクのシミュレーション環境と実環境実験の両方において,提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 8.81267687440119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present KOVIS, a novel learning-based, calibration-free visual servoing
method for fine robotic manipulation tasks with eye-in-hand stereo camera
system. We train the deep neural network only in the simulated environment; and
the trained model could be directly used for real-world visual servoing tasks.
KOVIS consists of two networks. The first keypoint network learns the keypoint
representation from the image using with an autoencoder. Then the visual
servoing network learns the motion based on keypoints extracted from the camera
image. The two networks are trained end-to-end in the simulated environment by
self-supervised learning without manual data labeling. After training with data
augmentation, domain randomization, and adversarial examples, we are able to
achieve zero-shot sim-to-real transfer to real-world robotic manipulation
tasks. We demonstrate the effectiveness of the proposed method in both
simulated environment and real-world experiment with different robotic
manipulation tasks, including grasping, peg-in-hole insertion with 4mm
clearance, and M13 screw insertion. The demo video is available at
http://youtu.be/gfBJBR2tDzA
- Abstract(参考訳): 我々は,眼内ステレオカメラシステムを用いたロボット操作作業のための,新しい学習ベースで校正不要なビジュアルサーボ手法KOVISを提案する。
シミュレーション環境でのみディープニューラルネットワークをトレーニングし、トレーニングされたモデルは現実世界のビジュアルサーボタスクに直接使用することが可能です。
KOVISは2つのネットワークから構成される。
第1のキーポイントネットワークは、オートエンコーダを用いて画像からキーポイント表現を学習する。
そして、視覚サーボネットワークは、カメラ画像から抽出されたキーポイントに基づいて動きを学習する。
2つのネットワークは、手動データラベリングなしで自己教師付き学習によってシミュレーション環境でエンドツーエンドに訓練される。
データ拡張、ドメインのランダム化、および敵対的な例を用いてトレーニングした後、実世界のロボット操作タスクへのゼロショットシミュレートを実現できる。
提案手法は,4mmクリアランスによるグルーピング,穴内挿入,M13スクリュー挿入など,ロボット操作作業のシミュレーション環境と実世界の双方において有効であることを示す。
デモビデオはhttp://youtu.be/gfbjbr2tdzaで入手できる。
関連論文リスト
- KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Markerless Camera-to-Robot Pose Estimation via Self-supervised
Sim-to-Real Transfer [26.21320177775571]
本稿では,オンラインカメラ・ロボット・キャリブレーションと自己監督型トレーニング手法を備えたエンドツーエンドのポーズ推定フレームワークを提案する。
我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。
論文 参考訳(メタデータ) (2023-02-28T05:55:42Z) - Real-World Robot Learning with Masked Visual Pre-training [161.88981509645416]
本研究では,実世界におけるロボット作業のための多種多様なアプリ内ビデオの画像に対する,自己指導型視覚前訓練について検討する。
私たちの視覚表現は、マスク付きオートエンコーダ(MAE)を介して事前訓練され、凍結され、学習可能な制御モジュールに渡されます。
エンコーダは、CLIP(最大75%)、ImageNet事前トレーニング(最大81%)、スクラッチ(最大81%)を一貫して上回ります。
論文 参考訳(メタデータ) (2022-10-06T17:59:01Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Graph Neural Networks for Relational Inductive Bias in Vision-based Deep
Reinforcement Learning of Robot Control [0.0]
この研究は、リレーショナル帰納バイアスと視覚フィードバックを組み合わせたニューラルネットワークアーキテクチャを導入し、効率的な位置制御ポリシーを学習する。
我々は、画像符号化ネットワークによって生成された視覚シーンの低次元記述を用いて、ロボットの内部状態をモデル化するグラフ表現を導出する。
視覚的に現実的な3D環境下での6-DoFロボットアームのサンプル効率を向上させるためのモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-03-11T15:11:54Z) - End-to-end Reinforcement Learning of Robotic Manipulation with Robust
Keypoints Representation [7.374994747693731]
本稿では,ロバストかつ効率的なキーポイント表現を用いて,ロボット操作タスクのためのエンドツーエンド強化学習フレームワークを提案する。
提案手法は,自己教師型オートエンコーダアーキテクチャを用いて,カメラ画像からキーポイントを状態表現として学習する。
本研究では,ロボット操作作業におけるロボット操作の有効性を,異なるシナリオで示す。
論文 参考訳(メタデータ) (2022-02-12T09:58:09Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。