論文の概要: C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks
- arxiv url: http://arxiv.org/abs/2110.12080v1
- Date: Fri, 22 Oct 2021 22:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 01:39:53.916789
- Title: C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks
- Title(参考訳): C-Planning:ゴール学習のための自動カリキュラム
- Authors: Tianjun Zhang, Benjamin Eysenbach, Ruslan Salakhutdinov, Sergey
Levine, Joseph E. Gonzalez
- Abstract要約: ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
- 参考スコア(独自算出の注目度): 133.40619754674066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned reinforcement learning (RL) can solve tasks in a wide range
of domains, including navigation and manipulation, but learning to reach
distant goals remains a central challenge to the field. Learning to reach such
goals is particularly hard without any offline data, expert demonstrations, and
reward shaping. In this paper, we propose an algorithm to solve the distant
goal-reaching task by using search at training time to automatically generate a
curriculum of intermediate states. Our algorithm, Classifier-Planning
(C-Planning), frames the learning of the goal-conditioned policies as
expectation maximization: the E-step corresponds to planning an optimal
sequence of waypoints using graph search, while the M-step aims to learn a
goal-conditioned policy to reach those waypoints. Unlike prior methods that
combine goal-conditioned RL with graph search, ours performs search only during
training and not testing, significantly decreasing the compute costs of
deploying the learned policy. Empirically, we demonstrate that our method is
more sample efficient than prior methods. Moreover, it is able to solve very
long horizons manipulation and navigation tasks, tasks that prior
goal-conditioned methods and methods based on graph search fail to solve.
- Abstract(参考訳): 目標条件強化学習(RL)は、ナビゲーションや操作を含む幅広い領域のタスクを解くことができるが、遠方の目標に到達するための学習は、この分野における重要な課題である。
このような目標を達成するための学習は、オフラインデータ、専門家によるデモンストレーション、報酬形成なしでは特に難しい。
本稿では,中間状態のカリキュラムを自動生成する学習時間における探索を用いて,遠隔目標獲得課題を解決するアルゴリズムを提案する。
本アルゴリズムは,目標条件付ポリシーの学習を期待最大化として構成する: e-stepはグラフ検索を用いた最適経路系列の計画に対応し,m-stepは目標条件付ポリシーの学習を目標とする。
目標条件付きRLとグラフ検索を組み合わせた従来の手法とは異なり、我々の手法はトレーニング中のみ検索を行い、テストは行わず、学習したポリシーをデプロイする際の計算コストを大幅に削減する。
実験により,本手法は従来の手法よりもサンプル効率が良いことを示す。
さらに,従来の目標条件付き手法やグラフ探索に基づく手法では解けない,非常に長い地平線操作やナビゲーションタスクを解くことができる。
関連論文リスト
- CQM: Curriculum Reinforcement Learning with a Quantized World Model [30.21954044028645]
本稿では,カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案する。
自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
また、エゴ中心の視覚入力においても、データ効率と性能に関する最先端のカリキュラムRL法よりも、様々な目標達成タスクにおいて優れています。
論文 参考訳(メタデータ) (2023-10-26T11:50:58Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。