論文の概要: Towards a Sample Efficient Reinforcement Learning Pipeline for Vision
Based Robotics
- arxiv url: http://arxiv.org/abs/2105.09719v1
- Date: Thu, 20 May 2021 13:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:29:23.181793
- Title: Towards a Sample Efficient Reinforcement Learning Pipeline for Vision
Based Robotics
- Title(参考訳): 視覚型ロボットのための効率的な強化学習パイプラインの試作
- Authors: Maxence Mahe, Pierre Belamri, Jesus Bujalance Martin
- Abstract要約: 我々は,ロボットアームの訓練に要する時間を制限するために,パイプラインをできるだけ効率的に組み立てることによって,スクラッチからボールに到達するための時間を制限する方法について検討した。
パイプラインは、RGBビデオから関連する情報をComputer Visionアルゴリズムでキャプチャする、という2つの部分に分けられる。
もうひとつは、Deep Reinforcement Learning(深層強化学習)アルゴリズムを使って、ロボットアームが自分の前にあるターゲットに到達できるように、より速くトレーニングする方法だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Reinforcement learning holds the guarantee of empowering self-ruling
robots to master enormous collections of conduct abilities with negligible
human mediation. The improvements brought by this technique enables robots to
perform difficult tasks such as grabbing or reaching targets. Nevertheless, the
training process is still time consuming and tedious especially when learning
policies only with RGB camera information. This way of learning is capital to
transfer the task from simulation to the real world since the only external
source of information for the robot in real life is video. In this paper, we
study how to limit the time taken for training a robotic arm with 6 Degrees Of
Freedom (DOF) to reach a ball from scratch by assembling a pipeline as
efficient as possible. The pipeline is divided into two parts: the first one is
to capture the relevant information from the RGB video with a Computer Vision
algorithm. The second one studies how to train faster a Deep Reinforcement
Learning algorithm in order to make the robotic arm reach the target in front
of him. Follow this link to find videos and plots in higher resolution:
\url{https://drive.google.com/drive/folders/1_lRlDSoPzd_GTcVrxNip10o_lm-_DPdn?usp=sharing}
- Abstract(参考訳): 深層強化学習は、人間の仲介を無視できる膨大な行動能力のコレクションを習得する自己学習ロボットの権限を保証している。
この技術によってもたらされる改善により、ロボットはターゲットをつかむ、到達するといった難しいタスクを実行できる。
それでも、トレーニングプロセスは、特にRGBカメラ情報のみでの学習ポリシーでは、時間がかかり、面倒です。
この学習方法は,実生活におけるロボットの外部情報源はビデオのみであるため,シミュレーションから実世界へタスクを移すことが重要である。
本稿では,6自由度(dof)のロボットアームのトレーニングに要する時間を,可能な限り効率的にパイプラインを組み立てることで,スクラッチからボールに到達できる時間を制限する方法について検討する。
パイプラインは2つの部分に分けられる: 1つ目は、コンピュータビジョンアルゴリズムを用いてrgbビデオから関連する情報をキャプチャする。
2つめは、ロボットアームを目の前の目標に到達させるために、深層強化学習アルゴリズムを高速にトレーニングする方法である。
url{https://drive.google.com/drive/folders/1_lrldsopzd_gtcvrxnip10o_lm-_dpdn?usp=shareing}
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - DexMV: Imitation Learning for Dexterous Manipulation from Human Videos [11.470141313103465]
本稿では,コンピュータビジョンとロボット学習のギャップを埋めるために,新しいプラットフォームとパイプラインであるDexMVを提案する。
i)多指ロボットハンドによる複雑な操作タスクのシミュレーションシステムと,(ii)人間の手による大規模な実演を記録するコンピュータビジョンシステムとを設計する。
実演ではロボット学習を大きなマージンで改善することができ、強化学習だけでは解決できない複雑なタスクを解決できることが示される。
論文 参考訳(メタデータ) (2021-08-12T17:51:18Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。