Fugu-MT 論文翻訳(概要): Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning

論文の概要: Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2303.02234v1
Date: Fri, 3 Mar 2023 21:55:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 20:51:05.256443
Title: Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning
Title（参考訳）: 隠れ状態:効率的な強化学習のためのBlending SimとReal Task Elements
Authors: Simon Guist, Jan Schneider, Alexander Dittrich, Vincent Berenz, Bernhard Sch\"olkopf, Dieter B\"uchler
Abstract要約: ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
参考スコア（独自算出の注目度）: 61.3506230781327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning has shown great potential in solving complex tasks when large amounts of data can be generated with little effort. In robotics, one approach to generate training data builds on simulations based on dynamics models derived from first principles. However, for tasks that, for instance, involve complex soft robots, devising such models is substantially more challenging. Being able to train effectively in increasingly complicated scenarios with reinforcement learning enables to take advantage of complex systems such as soft robots. Here, we leverage the imbalance in complexity of the dynamics to learn more sample-efficiently. We (i) abstract the task into distinct components, (ii) off-load the simple dynamics parts into the simulation, and (iii) multiply these virtual parts to generate more data in hindsight. Our new method, Hindsight States (HiS), uses this data and selects the most useful transitions for training. It can be used with an arbitrary off-policy algorithm. We validate our method on several challenging simulated tasks and demonstrate that it improves learning both alone and when combined with an existing hindsight algorithm, Hindsight Experience Replay (HER). Finally, we evaluate HiS on a physical system and show that it boosts performance on a complex table tennis task with a muscular robot. Videos and code of the experiments can be found on webdav.tuebingen.mpg.de/his/.
Abstract（参考訳）: 強化学習は、少ない労力で大量のデータを生成できる複雑なタスクを解決する大きな可能性を示している。ロボット工学では、第一原理から導かれた力学モデルに基づいてシミュレーションに基づいてトレーニングデータを生成する。しかし、例えば複雑なソフトロボットを含むタスクでは、そのようなモデルを考案することがかなり難しい。強化学習によってますます複雑なシナリオで効果的にトレーニングできることは、ソフトロボットのような複雑なシステムを活用することができる。ここでは、ダイナミクスの複雑さの不均衡を利用して、よりサンプル効率のよい学習を行う。私たち (i)タスクを異なるコンポーネントに抽象化する。 (ii)簡単な動力学部品をシミュレーションにオフロードし、 (iii)これらの仮想部品を乗じて、後からより多くのデータを生成する。新しい手法であるHindsight States (HiS)は、このデータを使用し、トレーニングに最も有用な遷移を選択する。任意のオフポリシーアルゴリズムで使用することができる。提案手法をいくつかの課題に対して検証し,HER(Hindsight Experience Replay)アルゴリズムと組み合わせることで,学習効率が向上することを示す。最後に,身体システム上でのHiSの評価を行い,筋肉ロボットを用いた複雑な卓球タスクの性能向上を示す。実験のビデオとコードは webdav.tuebingen.mpg.de/his/ で見ることができる。

関連論文リスト

Simulation Priors for Data-Efficient Deep Learning [56.525770511247934]
SimPELは、第一原理モデルとデータ駆動学習を効率的に組み合わせる手法である。我々は,生物,農業,ロボットなど多様なシステムでSimPELを評価した。意思決定において,SimPELはモデルに基づく強化学習において,シミュレーションと現実のギャップを埋めることを示した。
論文参考訳（メタデータ） (2025-09-06T14:36:41Z)
Learning Pivoting Manipulation with Force and Vision Feedback Using Optimization-based Demonstrations [20.20969802675097]
クローズドループのピボット操作を学習するためのフレームワークを提案する。計算効率のよい接触型軌道最適化を利用して,実演指導による深層強化学習を設計する。また、特権訓練戦略を用いて、ロボットがピボット操作を行うことができるシミュレート・トゥ・リアル・トランスファー手法を提案する。
論文参考訳（メタデータ） (2025-08-01T21:33:46Z)
VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文参考訳（メタデータ） (2024-07-30T23:29:47Z)
Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。データ利用戦略を最適化するためにオフライン強化学習を利用する。我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文参考訳（メタデータ） (2024-03-20T07:36:43Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文参考訳（メタデータ） (2023-01-12T14:00:37Z)
Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文参考訳（メタデータ） (2021-04-22T17:38:27Z)
Data-Efficient Learning for Complex and Real-Time Physical Problem Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文参考訳（メタデータ） (2020-11-14T02:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。