論文の概要: Maximum Entropy Gain Exploration for Long Horizon Multi-goal
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.02832v1
- Date: Mon, 6 Jul 2020 15:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 01:07:29.727280
- Title: Maximum Entropy Gain Exploration for Long Horizon Multi-goal
Reinforcement Learning
- Title(参考訳): 長距離多目的強化学習のための最大エントロピーゲイン探索
- Authors: Silviu Pitis, Harris Chan, Stephen Zhao, Bradly Stadie, Jimmy Ba
- Abstract要約: 学習エージェントは、歴史的達成目標分布のエントロピーを最大化する固有の目標を設定するべきである。
本研究の戦略は, 長期多目標課題における先行技術よりも, はるかに優れたサンプリング効率を達成できることが示される。
- 参考スコア(独自算出の注目度): 35.44552072132894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What goals should a multi-goal reinforcement learning agent pursue during
training in long-horizon tasks? When the desired (test time) goal distribution
is too distant to offer a useful learning signal, we argue that the agent
should not pursue unobtainable goals. Instead, it should set its own intrinsic
goals that maximize the entropy of the historical achieved goal distribution.
We propose to optimize this objective by having the agent pursue past achieved
goals in sparsely explored areas of the goal space, which focuses exploration
on the frontier of the achievable goal set. We show that our strategy achieves
an order of magnitude better sample efficiency than the prior state of the art
on long-horizon multi-goal tasks including maze navigation and block stacking.
- Abstract(参考訳): 長距離訓練における多目的強化学習エージェントはどのような目標を追求すべきか?
望ましい(テスト時間)目標分布が、有用な学習信号を提供するには遠すぎる場合、エージェントは目立たない目標を追求すべきではないと主張する。
その代わり、歴史的達成された目標分布のエントロピーを最大化する独自の固有の目標を設定するべきである。
本稿では,達成可能な目標セットのフロンティアの探索に焦点を当てた,目標空間の疎い領域において,過去の達成目標をエージェントが追求することで,この目的を最適化することを提案する。
提案手法は,mazeナビゲーションやブロック積み重ねを含む長時間ホリゾンマルチゴールタスクにおいて,従来の技術よりも1桁高いサンプル効率を実現していることを示す。
関連論文リスト
- Temporally Extended Goal Recognition in Fully Observable
Non-Deterministic Domain Models [43.460098744623416]
既存のアプローチでは、ゴール仮説は1つの最終状態上の1つの共役公式からなると仮定している。
完全可観測非決定論的(FOND)計画領域モデルにおける時間的拡張目標に焦点をあてる。
実験結果から, 異なる認識環境における時間的拡張目標の認識において, 提案手法が正確であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T18:02:00Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。