論文の概要: Sample-efficient Reinforcement Learning in Robotic Table Tennis
- arxiv url: http://arxiv.org/abs/2011.03275v3
- Date: Wed, 24 Mar 2021 16:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:06:36.737494
- Title: Sample-efficient Reinforcement Learning in Robotic Table Tennis
- Title(参考訳): ロボット卓球におけるサンプル効率強化学習
- Authors: Jonas Tebbe, Lukas Krauch, Yapeng Gao, Andreas Zell
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々なコンピュータゲームやシミュレーションにおいて、近年顕著な成功を収めている。
本稿では,テーブルテニスロボットの例として,サンプル効率のよいRLアルゴリズムを提案する。
提案手法は,シミュレーションと実ロボットの両方において,いくつかの挑戦的なシナリオで競合的に機能する。
- 参考スコア(独自算出の注目度): 18.902676888661755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved some impressive recent successes in
various computer games and simulations. Most of these successes are based on
having large numbers of episodes from which the agent can learn. In typical
robotic applications, however, the number of feasible attempts is very limited.
In this paper we present a sample-efficient RL algorithm applied to the example
of a table tennis robot. In table tennis every stroke is different, with
varying placement, speed and spin. An accurate return therefore has to be found
depending on a high-dimensional continuous state space. To make learning in few
trials possible the method is embedded into our robot system. In this way we
can use a one-step environment. The state space depends on the ball at hitting
time (position, velocity, spin) and the action is the racket state
(orientation, velocity) at hitting. An actor-critic based deterministic policy
gradient algorithm was developed for accelerated learning. Our approach
performs competitively both in a simulation and on the real robot in a number
of challenging scenarios. Accurate results are obtained without pre-training in
under $200$ episodes of training. The video presenting our experiments is
available at https://youtu.be/uRAtdoL6Wpw.
- Abstract(参考訳): 強化学習(rl)は、様々なコンピュータゲームやシミュレーションにおいて、最近の印象的な成功を収めている。
これらの成功の大部分は、エージェントが学べるエピソードの数が多いことに基づいている。
しかし、一般的なロボット応用では、実現可能な試みの数は極めて限られている。
本稿では,テーブルテニスロボットの例として,サンプル効率のよいRLアルゴリズムを提案する。
卓球では、各ストロークは異なるが、配置、速度、回転が異なる。
したがって、正確なリターンは高次元連続状態空間に依存する必要がある。
少ない試行数で学習できるようにするため,本手法をロボットシステムに組み込む。
このようにして、ワンステップ環境を使用できます。
状態空間は打時のボール(位置、速度、スピン)に依存し、アクションは打時のラケット状態(向き、速度)である。
アクタ-クリティックに基づく決定論的ポリシー勾配アルゴリズムを開発した。
私たちのアプローチは、シミュレーションと実際のロボットの両方において、多くの困難なシナリオで競争的に実行します。
正確な結果は、200ドル以下のトレーニングで事前トレーニングすることなく得られる。
実験のビデオはhttps://youtu.be/uRAtdoL6Wpw.comで公開されている。
関連論文リスト
- Dynamic Handover: Throw and Catch with Bimanual Hands [30.206469112964033]
この問題を解決するために、ロボットアームに2本の指を取り付けたシステムを設計する。
シミュレーションにおいてマルチエージェント強化学習を用いてシステムを訓練し、実ロボットにデプロイするためのSim2Real転送を実行する。
Sim2Realのギャップを克服するために、オブジェクトの軌道予測モデルを学ぶことを含む、複数の新しいアルゴリズム設計を提供する。
論文 参考訳(メタデータ) (2023-09-11T17:49:25Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement
Learning [26.531618219032936]
我々はDeep RLを使って20個の関節を持つヒューマノイドロボットを訓練し、単純化された1対1 (1v1) のサッカーゲームをする。
最初は個別のスキルを個別に訓練し、その後、エンドツーエンドのスキルをセルフプレイで構成しました。
結果として得られる政策は、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示す。
論文 参考訳(メタデータ) (2023-04-26T16:25:54Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Learning to Play Table Tennis From Scratch using Muscular Robots [34.34824536814943]
この研究は、(a)人為的ロボットアームを用いた安全クリティカルな動的タスクを初めて学習し、(b)PAM駆動システムで精度の高い要求問題を学び、(c)本物のボールなしで卓球をするようにロボットを訓練する。
ビデオとデータセットは muscleTT.embodied.ml で入手できる。
論文 参考訳(メタデータ) (2020-06-10T16:43:27Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。