論文の概要: Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.16058v2
- Date: Tue, 19 Dec 2023 11:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:29:33.793212
- Title: Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning
- Title(参考訳): sparse-reward long-horizon-conditioned reinforcement learningのための事前学習スキルによる目標探索強化
- Authors: Lisheng Wu and Ke Chen
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
- 参考スコア(独自算出の注目度): 6.540225358657128
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) often struggles to accomplish a sparse-reward
long-horizon task in a complex environment. Goal-conditioned reinforcement
learning (GCRL) has been employed to tackle this difficult problem via a
curriculum of easy-to-reach sub-goals. In GCRL, exploring novel sub-goals is
essential for the agent to ultimately find the pathway to the desired goal. How
to explore novel sub-goals efficiently is one of the most challenging issues in
GCRL. Several goal exploration methods have been proposed to address this issue
but still struggle to find the desired goals efficiently. In this paper, we
propose a novel learning objective by optimizing the entropy of both achieved
and new goals to be explored for more efficient goal exploration in sub-goal
selection based GCRL. To optimize this objective, we first explore and exploit
the frequently occurring goal-transition patterns mined in the environments
similar to the current task to compose skills via skill learning. Then, the
pretrained skills are applied in goal exploration. Evaluation on a variety of
spare-reward long-horizon benchmark tasks suggests that incorporating our
method into several state-of-the-art GCRL baselines significantly boosts their
exploration efficiency while improving or maintaining their performance. The
source code is available at: https://github.com/GEAPS/GEAPS.
- Abstract(参考訳): 強化学習(rl)は、複雑な環境で疎遠な長いホリゾンタスクを達成するのに苦労することが多い。
目標条件強化学習(gcrl)は、難解なサブゴールのカリキュラムを通じてこの問題に取り組むために採用されている。
gcrlでは、エージェントが最終的に望ましい目標への経路を見つけるためには、新しいサブゴールの探索が不可欠である。
新たなサブゴールを効率的に探索する方法は、GCRLの最も難しい問題の一つである。
この問題に対処するために、いくつかの目標探索手法が提案されているが、望ましい目標を効率的に見つけるのに苦労している。
本稿では,ゴール選択に基づくGCRLにおいて,達成目標と新たな目標のエントロピーを最適化し,より効率的な目標探索を実現するための新たな学習目標を提案する。
この目的を最適化するために、我々はまず、スキル学習を通じてスキルを構成するために、現在のタスクと同様の環境でしばしば発生するゴール遷移パターンを探索し、活用する。
そして、事前訓練されたスキルをゴール探索に適用する。
本手法をいくつかの最先端GCRLベースラインに組み込むことで, 探索効率を向上し, 性能を向上し, 維持することが示唆された。
ソースコードは、https://github.com/GEAPS/GEAPSで入手できる。
関連論文リスト
- Scaling Goal-based Exploration via Pruning Proto-goals [10.976262029859424]
強化学習における最も厄介な課題の1つは、広大な領域に拡大する探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
提案手法は,人間設計者が広いが有意義な原ゴール空間を指定できるように,中間領域を明示的に求めている。
論文 参考訳(メタデータ) (2023-02-09T15:22:09Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - Maximum Entropy Gain Exploration for Long Horizon Multi-goal
Reinforcement Learning [35.44552072132894]
学習エージェントは、歴史的達成目標分布のエントロピーを最大化する固有の目標を設定するべきである。
本研究の戦略は, 長期多目標課題における先行技術よりも, はるかに優れたサンプリング効率を達成できることが示される。
論文 参考訳(メタデータ) (2020-07-06T15:36:05Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。