論文の概要: Automatic Curriculum Learning through Value Disagreement
- arxiv url: http://arxiv.org/abs/2006.09641v1
- Date: Wed, 17 Jun 2020 03:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:08:36.990831
- Title: Automatic Curriculum Learning through Value Disagreement
- Title(参考訳): 価値認識によるカリキュラムの自動学習
- Authors: Yunzhi Zhang, Pieter Abbeel, Lerrel Pinto
- Abstract要約: 新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 95.19299356298876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continually solving new, unsolved tasks is the key to learning diverse
behaviors. Through reinforcement learning (RL), we have made massive strides
towards solving tasks that have a single goal. However, in the multi-task
domain, where an agent needs to reach multiple goals, the choice of training
goals can largely affect sample efficiency. When biological agents learn, there
is often an organized and meaningful order to which learning happens. Inspired
by this, we propose setting up an automatic curriculum for goals that the agent
needs to solve. Our key insight is that if we can sample goals at the frontier
of the set of goals that an agent is able to reach, it will provide a
significantly stronger learning signal compared to randomly sampled goals. To
operationalize this idea, we introduce a goal proposal module that prioritizes
goals that maximize the epistemic uncertainty of the Q-function of the policy.
This simple technique samples goals that are neither too hard nor too easy for
the agent to solve, hence enabling continual improvement. We evaluate our
method across 13 multi-goal robotic tasks and 5 navigation tasks, and
demonstrate performance gains over current state-of-the-art methods.
- Abstract(参考訳): 新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
強化学習(RL)を通じて,1つの目標を持つタスクの解決に大きく取り組みました。
しかしながら、エージェントが複数の目標を達成する必要があるマルチタスクドメインでは、トレーニング目標の選択がサンプル効率に大きく影響します。
生物学的エージェントが学ぶとき、しばしば学習が起こる組織的で意味のある順序がある。
そこで我々は,エージェントが解くべき目標のためのカリキュラムを自動設定することを提案する。
私たちの重要な洞察は、エージェントが到達できる目標のセットの最前線で目標をサンプリングできれば、ランダムにサンプリングされた目標よりもはるかに強力な学習信号が得られるということです。
このアイデアを運用するために,政策のQ-関数の認識的不確実性を最大化する目標を優先する目標提案モジュールを導入する。
このシンプルなテクニックは、エージェントが解決するには難しくも簡単でもない目標をサンプリングし、継続的な改善を可能にする。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現状の手法よりも高い性能を示す。
関連論文リスト
- Generating Adversarial Examples with Task Oriented Multi-Objective
Optimization [21.220906842166425]
敵の訓練はモデルの堅牢性を改善する最も効率的な方法の1つである。
我々はこの問題に対処するためにemphTask Oriented MOOを提案する。
私たちの原則は、目標達成タスクのみを維持しながら、目標達成タスクの改善により多くの労力を費やすことです。
論文 参考訳(メタデータ) (2023-04-26T01:30:02Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。