論文の概要: GOATS: Goal Sampling Adaptation for Scooping with Curriculum
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.05193v4
- Date: Sat, 23 Sep 2023 20:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 03:42:29.085443
- Title: GOATS: Goal Sampling Adaptation for Scooping with Curriculum
Reinforcement Learning
- Title(参考訳): GOATS:カリキュラム強化学習によるスクーピングのためのゴールサンプリング適応
- Authors: Yaru Niu, Shiyu Jin, Zeqing Zhang, Jiacheng Zhu, Ding Zhao, Liangjun
Zhang
- Abstract要約: まず、目標条件付き強化学習を用いて、ロボットウォータースクーピングの問題を定式化する。
本稿では,カリキュラム強化学習法であるGoal Smpling Adaptation for Scooping (GOATS)を紹介する。
提案手法は, ノイズの多い実ロボットのウォータースクーピングシナリオに効率よく適応できる。
- 参考スコア(独自算出の注目度): 36.91136395158744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we first formulate the problem of robotic water scooping using
goal-conditioned reinforcement learning. This task is particularly challenging
due to the complex dynamics of fluids and the need to achieve multi-modal
goals. The policy is required to successfully reach both position goals and
water amount goals, which leads to a large convoluted goal state space. To
overcome these challenges, we introduce Goal Sampling Adaptation for Scooping
(GOATS), a curriculum reinforcement learning method that can learn an effective
and generalizable policy for robot scooping tasks. Specifically, we use a
goal-factorized reward formulation and interpolate position goal distributions
and amount goal distributions to create curriculum throughout the learning
process. As a result, our proposed method can outperform the baselines in
simulation and achieves 5.46% and 8.71% amount errors on bowl scooping and
bucket scooping tasks, respectively, under 1000 variations of initial water
states in the tank and a large goal state space. Besides being effective in
simulation environments, our method can efficiently adapt to noisy real-robot
water-scooping scenarios with diverse physical configurations and unseen
settings, demonstrating superior efficacy and generalizability. The videos of
this work are available on our project page:
https://sites.google.com/view/goatscooping.
- Abstract(参考訳): 本研究では,まず,目標条件付き強化学習を用いてロボットウォータースクーピングの問題を定式化する。
この課題は流体の複雑なダイナミクスとマルチモーダル目標を達成する必要性のために特に困難である。
この政策は、位置目標と水量目標の両方をうまく達成するために必要であり、大きな畳み込み目標状態空間に繋がる。
これらの課題を克服するために,ロボットスクープタスクの効果的かつ汎用的な方針を学習可能なカリキュラム強化学習手法であるgoats(goats)の目標サンプリング適応を提案する。
具体的には,ゴール分解報酬の定式化と位置目標分布と量目標分布を補間し,学習過程を通してカリキュラムを作成する。
その結果,提案手法はシミュレーションのベースラインを上回ることができ,ボウルスクーピングとバケットスクーピング作業において,タンク内の初期水状態の1000種類以下で5.46%,8.71%の誤差が達成できた。
本手法は,シミュレーション環境において有効であるだけでなく,様々な物理構成と未認識設定のノイズの多い実ロボット水冷シナリオに効率的に適応し,優れた有効性と汎用性を示す。
この作業のビデオはプロジェクトのページで公開されている。
関連論文リスト
- Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Real Robot Challenge using Deep Reinforcement Learning [6.332038240397164]
本稿では,2021年リアルロボットチャレンジの第1フェーズの優勝を詳述する。
課題は、3本指のロボットが特定の目標軌道に沿って立方体を運ばなければならないことだ。
我々は、ロボットシステムの知識を最小限にする必要のある、純粋な強化学習アプローチを使用している。
論文 参考訳(メタデータ) (2021-09-30T16:12:17Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。