論文の概要: Deep Reinforcement Learning for Complex Manipulation Tasks with Sparse
Feedback
- arxiv url: http://arxiv.org/abs/2001.03877v1
- Date: Sun, 12 Jan 2020 07:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:32:44.848667
- Title: Deep Reinforcement Learning for Complex Manipulation Tasks with Sparse
Feedback
- Title(参考訳): 疎フィードバックを伴う複雑な操作課題に対する深層強化学習
- Authors: Binyamin Manela
- Abstract要約: Hindsight Experience Replay (HER) はマルチゴール強化学習アルゴリズムである。
本稿では,既存のHERアルゴリズムに基づく3つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning optimal policies from sparse feedback is a known challenge in
reinforcement learning. Hindsight Experience Replay (HER) is a multi-goal
reinforcement learning algorithm that comes to solve such tasks. The algorithm
treats every failure as a success for an alternative (virtual) goal that has
been achieved in the episode and then generalizes from that virtual goal to
real goals. HER has known flaws and is limited to relatively simple tasks. In
this thesis, we present three algorithms based on the existing HER algorithm
that improves its performances. First, we prioritize virtual goals from which
the agent will learn more valuable information. We call this property the
\textit{instructiveness} of the virtual goal and define it by a heuristic
measure, which expresses how well the agent will be able to generalize from
that virtual goal to actual goals. Secondly, we designed a filtering process
that detects and removes misleading samples that may induce bias throughout the
learning process. Lastly, we enable the learning of complex, sequential, tasks
using a form of curriculum learning combined with HER. We call this algorithm
\textit{Curriculum HER}. To test our algorithms, we built three challenging
manipulation environments with sparse reward functions. Each environment has
three levels of complexity. Our empirical results show vast improvement in the
final success rate and sample efficiency when compared to the original HER
algorithm.
- Abstract(参考訳): 疎いフィードバックから最適なポリシーを学ぶことは、強化学習における既知の課題である。
Hindsight Experience Replay (HER) は、そのような課題を解決するためのマルチゴール強化学習アルゴリズムである。
このアルゴリズムは、全ての失敗をエピソードで達成された代替(仮想)目標の成功として扱い、その仮想目標から実際の目標へと一般化する。
HERには既知の欠陥があり、比較的単純なタスクに限定されている。
本論文では,既存のherアルゴリズムに基づく3つのアルゴリズムを提案する。
まず、エージェントがより価値のある情報を学ぶ仮想目標を優先します。
この性質を仮想ゴールの「textit{instructiveness}」と呼び、エージェントが仮想ゴールから実際のゴールへの一般化をいかにうまく行うかを表すヒューリスティックな尺度で定義する。
第二に,学習過程全体を通してバイアスを生じさせるような誤解を招くサンプルを検出し,除去するフィルタリングプロセスを設計した。
最後に、HERと組み合わせたカリキュラム学習の形式を用いて、複雑でシーケンシャルなタスクの学習を可能にする。
このアルゴリズムを \textit{curriculum her} と呼ぶ。
アルゴリズムをテストするため、3つの難解な操作環境を構築しました。
それぞれの環境は複雑度が3つある。
実験の結果,herアルゴリズムと比較した場合,最終的な成功率とサンプル効率は大幅に向上した。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - DERAIL: Diagnostic Environments for Reward And Imitation Learning [9.099589602551573]
アルゴリズム性能の個々の面を個別にテストする一連の診断タスクを開発する。
その結果,アルゴリズムの性能は実装の詳細に非常に敏感であることが確認された。
ケーススタディは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法を示している。
論文 参考訳(メタデータ) (2020-12-02T18:07:09Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z) - Curriculum Learning with Hindsight Experience Replay for Sequential
Object Manipulation Tasks [1.370633147306388]
本稿では,カリキュラム学習とHER(Hindsight Experience Replay)を組み合わせて,逐次的なオブジェクト操作タスクを学習するアルゴリズムを提案する。
このアルゴリズムは、多くのオブジェクト操作タスクに固有のリカレント構造を利用し、元のシミュレーションで学習プロセス全体を各ソースタスクに調整することなく実装する。
論文 参考訳(メタデータ) (2020-08-21T08:59:28Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。