論文の概要: Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.02234v1
- Date: Fri, 3 Mar 2023 21:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:51:05.256443
- Title: Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning
- Title(参考訳): 隠れ状態:効率的な強化学習のためのBlending SimとReal Task Elements
- Authors: Simon Guist, Jan Schneider, Alexander Dittrich, Vincent Berenz,
Bernhard Sch\"olkopf, Dieter B\"uchler
- Abstract要約: ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
- 参考スコア(独自算出の注目度): 61.3506230781327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has shown great potential in solving complex tasks
when large amounts of data can be generated with little effort. In robotics,
one approach to generate training data builds on simulations based on dynamics
models derived from first principles. However, for tasks that, for instance,
involve complex soft robots, devising such models is substantially more
challenging. Being able to train effectively in increasingly complicated
scenarios with reinforcement learning enables to take advantage of complex
systems such as soft robots. Here, we leverage the imbalance in complexity of
the dynamics to learn more sample-efficiently. We (i) abstract the task into
distinct components, (ii) off-load the simple dynamics parts into the
simulation, and (iii) multiply these virtual parts to generate more data in
hindsight. Our new method, Hindsight States (HiS), uses this data and selects
the most useful transitions for training. It can be used with an arbitrary
off-policy algorithm. We validate our method on several challenging simulated
tasks and demonstrate that it improves learning both alone and when combined
with an existing hindsight algorithm, Hindsight Experience Replay (HER).
Finally, we evaluate HiS on a physical system and show that it boosts
performance on a complex table tennis task with a muscular robot. Videos and
code of the experiments can be found on webdav.tuebingen.mpg.de/his/.
- Abstract(参考訳): 強化学習は、少ない労力で大量のデータを生成できる複雑なタスクを解決する大きな可能性を示している。
ロボット工学では、第一原理から導かれた力学モデルに基づいてシミュレーションに基づいてトレーニングデータを生成する。
しかし、例えば複雑なソフトロボットを含むタスクでは、そのようなモデルを考案することがかなり難しい。
強化学習によってますます複雑なシナリオで効果的にトレーニングできることは、ソフトロボットのような複雑なシステムを活用することができる。
ここでは、ダイナミクスの複雑さの不均衡を利用して、よりサンプル効率のよい学習を行う。
私たち
(i)タスクを異なるコンポーネントに抽象化する。
(ii)簡単な動力学部品をシミュレーションにオフロードし、
(iii)これらの仮想部品を乗じて、後からより多くのデータを生成する。
新しい手法であるHindsight States (HiS)は、このデータを使用し、トレーニングに最も有用な遷移を選択する。
任意のオフポリシーアルゴリズムで使用することができる。
提案手法をいくつかの課題に対して検証し,HER(Hindsight Experience Replay)アルゴリズムと組み合わせることで,学習効率が向上することを示す。
最後に,身体システム上でのHiSの評価を行い,筋肉ロボットを用いた複雑な卓球タスクの性能向上を示す。
実験のビデオとコードは webdav.tuebingen.mpg.de/his/ で見ることができる。
関連論文リスト
- REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Reduced Simulations for High-Energy Physics, a Middle Ground for
Data-Driven Physics Research [0.0]
サブ原子粒子軌道再構成は高エネルギー物理実験において重要な課題である。
我々は,複雑性低減型検出器モデルとしてREDVID(REDuced VIrtual Detector)と粒子衝突イベントシミュレータコンボを提供する。
論文 参考訳(メタデータ) (2023-08-30T12:50:45Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。