Fugu-MT 論文翻訳(概要): Sample-efficient Reinforcement Learning in Robotic Table Tennis

論文の概要: Sample-efficient Reinforcement Learning in Robotic Table Tennis

arxiv url: http://arxiv.org/abs/2011.03275v3
Date: Wed, 24 Mar 2021 16:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 05:06:36.737494
Title: Sample-efficient Reinforcement Learning in Robotic Table Tennis
Title（参考訳）: ロボット卓球におけるサンプル効率強化学習
Authors: Jonas Tebbe, Lukas Krauch, Yapeng Gao, Andreas Zell
Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々なコンピュータゲームやシミュレーションにおいて、近年顕著な成功を収めている。本稿では,テーブルテニスロボットの例として,サンプル効率のよいRLアルゴリズムを提案する。提案手法は,シミュレーションと実ロボットの両方において,いくつかの挑戦的なシナリオで競合的に機能する。
参考スコア（独自算出の注目度）: 18.902676888661755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has achieved some impressive recent successes in various computer games and simulations. Most of these successes are based on having large numbers of episodes from which the agent can learn. In typical robotic applications, however, the number of feasible attempts is very limited. In this paper we present a sample-efficient RL algorithm applied to the example of a table tennis robot. In table tennis every stroke is different, with varying placement, speed and spin. An accurate return therefore has to be found depending on a high-dimensional continuous state space. To make learning in few trials possible the method is embedded into our robot system. In this way we can use a one-step environment. The state space depends on the ball at hitting time (position, velocity, spin) and the action is the racket state (orientation, velocity) at hitting. An actor-critic based deterministic policy gradient algorithm was developed for accelerated learning. Our approach performs competitively both in a simulation and on the real robot in a number of challenging scenarios. Accurate results are obtained without pre-training in under $200$ episodes of training. The video presenting our experiments is available at https://youtu.be/uRAtdoL6Wpw.
Abstract（参考訳）: 強化学習(rl)は、様々なコンピュータゲームやシミュレーションにおいて、最近の印象的な成功を収めている。これらの成功の大部分は、エージェントが学べるエピソードの数が多いことに基づいている。しかし、一般的なロボット応用では、実現可能な試みの数は極めて限られている。本稿では,テーブルテニスロボットの例として,サンプル効率のよいRLアルゴリズムを提案する。卓球では、各ストロークは異なるが、配置、速度、回転が異なる。したがって、正確なリターンは高次元連続状態空間に依存する必要がある。少ない試行数で学習できるようにするため,本手法をロボットシステムに組み込む。このようにして、ワンステップ環境を使用できます。状態空間は打時のボール(位置、速度、スピン)に依存し、アクションは打時のラケット状態(向き、速度)である。アクタ-クリティックに基づく決定論的ポリシー勾配アルゴリズムを開発した。私たちのアプローチは、シミュレーションと実際のロボットの両方において、多くの困難なシナリオで競争的に実行します。正確な結果は、200ドル以下のトレーニングで事前トレーニングすることなく得られる。実験のビデオはhttps://youtu.be/uRAtdoL6Wpw.comで公開されている。

関連論文リスト

Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Learning Diverse Robot Striking Motions with Diffusion Models and Kinematically Constrained Gradient Guidance [0.3613661942047476]
私たちは、オフラインで制約付きで、多様なアジャイルの振る舞いを表現する、新しい拡散モデリングアプローチを開発しています。エアホッケーとリアル卓球の2つの課題領域において, KCGG を評価することで, 時間クリティカルなロボット作業に対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-09-23T20:26:51Z)
Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
IRASim: Learning Interactive Real-Robot Action Simulators [24.591694756757278]
本稿では,ロボットアームが与えられた動作軌跡を実行する様子をリアルに映像化するための新しい手法IRASimを提案する。提案手法の有効性を検証するため,3つの実ロボットデータセットに基づいて,新しいベンチマーク IRASim Benchmark を作成する。その結果, IRASimはすべての基準法より優れており, 人的評価に好適であることが示唆された。
論文参考訳（メタデータ） (2024-06-20T17:50:16Z)
Dynamic Handover: Throw and Catch with Bimanual Hands [30.206469112964033]
この問題を解決するために、ロボットアームに2本の指を取り付けたシステムを設計する。シミュレーションにおいてマルチエージェント強化学習を用いてシステムを訓練し、実ロボットにデプロイするためのSim2Real転送を実行する。 Sim2Realのギャップを克服するために、オブジェクトの軌道予測モデルを学ぶことを含む、複数の新しいアルゴリズム設計を提供する。
論文参考訳（メタデータ） (2023-09-11T17:49:25Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Quality-Diversity Optimisation on a Physical Robot Through Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。 RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文参考訳（メタデータ） (2023-04-24T13:24:00Z)
Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文参考訳（メタデータ） (2023-03-03T21:55:04Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文参考訳（メタデータ） (2021-11-01T13:55:41Z)
Reactive Long Horizon Task Execution via Visual Skill and Precondition Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文参考訳（メタデータ） (2020-11-17T15:24:01Z)
Learning to Play Table Tennis From Scratch using Muscular Robots [34.34824536814943]
この研究は、(a)人為的ロボットアームを用いた安全クリティカルな動的タスクを初めて学習し、(b)PAM駆動システムで精度の高い要求問題を学び、(c)本物のボールなしで卓球をするようにロボットを訓練する。ビデオとデータセットは muscleTT.embodied.ml で入手できる。
論文参考訳（メタデータ） (2020-06-10T16:43:27Z)
Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文参考訳（メタデータ） (2020-03-04T23:46:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。