論文の概要: Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.02234v1
- Date: Fri, 3 Mar 2023 21:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:51:05.256443
- Title: Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning
- Title(参考訳): 隠れ状態:効率的な強化学習のためのBlending SimとReal Task Elements
- Authors: Simon Guist, Jan Schneider, Alexander Dittrich, Vincent Berenz,
Bernhard Sch\"olkopf, Dieter B\"uchler
- Abstract要約: ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
- 参考スコア(独自算出の注目度): 61.3506230781327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has shown great potential in solving complex tasks
when large amounts of data can be generated with little effort. In robotics,
one approach to generate training data builds on simulations based on dynamics
models derived from first principles. However, for tasks that, for instance,
involve complex soft robots, devising such models is substantially more
challenging. Being able to train effectively in increasingly complicated
scenarios with reinforcement learning enables to take advantage of complex
systems such as soft robots. Here, we leverage the imbalance in complexity of
the dynamics to learn more sample-efficiently. We (i) abstract the task into
distinct components, (ii) off-load the simple dynamics parts into the
simulation, and (iii) multiply these virtual parts to generate more data in
hindsight. Our new method, Hindsight States (HiS), uses this data and selects
the most useful transitions for training. It can be used with an arbitrary
off-policy algorithm. We validate our method on several challenging simulated
tasks and demonstrate that it improves learning both alone and when combined
with an existing hindsight algorithm, Hindsight Experience Replay (HER).
Finally, we evaluate HiS on a physical system and show that it boosts
performance on a complex table tennis task with a muscular robot. Videos and
code of the experiments can be found on webdav.tuebingen.mpg.de/his/.
- Abstract(参考訳): 強化学習は、少ない労力で大量のデータを生成できる複雑なタスクを解決する大きな可能性を示している。
ロボット工学では、第一原理から導かれた力学モデルに基づいてシミュレーションに基づいてトレーニングデータを生成する。
しかし、例えば複雑なソフトロボットを含むタスクでは、そのようなモデルを考案することがかなり難しい。
強化学習によってますます複雑なシナリオで効果的にトレーニングできることは、ソフトロボットのような複雑なシステムを活用することができる。
ここでは、ダイナミクスの複雑さの不均衡を利用して、よりサンプル効率のよい学習を行う。
私たち
(i)タスクを異なるコンポーネントに抽象化する。
(ii)簡単な動力学部品をシミュレーションにオフロードし、
(iii)これらの仮想部品を乗じて、後からより多くのデータを生成する。
新しい手法であるHindsight States (HiS)は、このデータを使用し、トレーニングに最も有用な遷移を選択する。
任意のオフポリシーアルゴリズムで使用することができる。
提案手法をいくつかの課題に対して検証し,HER(Hindsight Experience Replay)アルゴリズムと組み合わせることで,学習効率が向上することを示す。
最後に,身体システム上でのHiSの評価を行い,筋肉ロボットを用いた複雑な卓球タスクの性能向上を示す。
実験のビデオとコードは webdav.tuebingen.mpg.de/his/ で見ることができる。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。
データ利用戦略を最適化するためにオフライン強化学習を利用する。
我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-20T07:36:43Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。