論文の概要: Enhanced Generalization through Prioritization and Diversity in
Self-Imitation Reinforcement Learning over Procedural Environments with
Sparse Rewards
- arxiv url: http://arxiv.org/abs/2311.00426v1
- Date: Wed, 1 Nov 2023 10:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:10:54.016612
- Title: Enhanced Generalization through Prioritization and Diversity in
Self-Imitation Reinforcement Learning over Procedural Environments with
Sparse Rewards
- Title(参考訳): 疎開型手続き環境における自己刺激強化学習における優先化と多様性による一般化の促進
- Authors: Alain Andres, Daochen Zha and Javier Del Ser
- Abstract要約: 探索は、低報酬の強化学習(RL)において、根本的な課題となる。
セルフイミテーション学習は、リプレイバッファを利用して、成功した振る舞いを保存し、再現する、探索のための有望なアプローチとして登場した。
持続する経験をランク付けする新たな自己IL法が提案されているが、それらの意義に関わらず、遷移を均一に再生する。
本研究では、遷移を異なる方法で優先順位付けし、優先順位付け手法を手続き的に生成する環境に拡張することで、自己ILサンプリング戦略をカスタマイズする。
- 参考スコア(独自算出の注目度): 36.07007894756066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration poses a fundamental challenge in Reinforcement Learning (RL) with
sparse rewards, limiting an agent's ability to learn optimal decision-making
due to a lack of informative feedback signals. Self-Imitation Learning
(self-IL) has emerged as a promising approach for exploration, leveraging a
replay buffer to store and reproduce successful behaviors. However, traditional
self-IL methods, which rely on high-return transitions and assume singleton
environments, face challenges in generalization, especially in
procedurally-generated (PCG) environments. Therefore, new self-IL methods have
been proposed to rank which experiences to persist, but they replay transitions
uniformly regardless of their significance, and do not address the diversity of
the stored demonstrations. In this work, we propose tailored self-IL sampling
strategies by prioritizing transitions in different ways and extending
prioritization techniques to PCG environments. We also address diversity loss
through modifications to counteract the impact of generalization requirements
and bias introduced by prioritization techniques. Our experimental analysis,
conducted over three PCG sparse reward environments, including MiniGrid and
ProcGen, highlights the benefits of our proposed modifications, achieving a new
state-of-the-art performance in the MiniGrid-MultiRoom-N12-S10 environment.
- Abstract(参考訳): 探索は、情報的フィードバック信号の欠如により、エージェントが最適な意思決定を学習する能力を制限し、わずかな報酬で強化学習(RL)において根本的な課題となる。
セルフイミテーション学習(self-IL)は,リプレイバッファを利用して動作の保存と再現を行う,探索のための有望なアプローチとして登場した。
しかし、ハイリターン遷移に頼りシングルトン環境を仮定する従来のセルフIL手法は、特に手続き的に生成されたPCG環境において、一般化の課題に直面している。
そのため、持続する経験をランク付けする新たな自己IL法が提案されているが、それらの意義に関わらず遷移を均一に再生し、保存されたデモの多様性に対処しない。
本研究では,遷移を異なる方法で優先順位付けし,優先順位付け手法をpcg環境に拡張することで,自己加重サンプリング戦略を提案する。
また,一般化要求と優先順位付け手法によるバイアスの影響に対処するため,修正による多様性の損失にも対処した。
筆者らは,MiniGrid や ProcGen を含む3つのPCGスパース報酬環境上で行った実験により,提案手法の利点を強調し,MiniGrid-MultiRoom-N12-S10環境における新たな最先端性能を実現する。
関連論文リスト
- PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling [36.481053480535515]
PIPER: Hindsight Relabeling を用いたPrimitive-Informed Preferenceに基づく階層型強化学習について紹介する。
我々の緩和に基づくアプローチは、既存の階層的アプローチに共通する非定常性を緩和することができる。
実用不可能なサブゴール予測の防止と退化解の回避のために,プリミティブインフォームド正規化を提案する。
論文 参考訳(メタデータ) (2024-04-20T17:06:00Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルがどのような影響を及ぼすかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現とトレーニングレベルとの相互情報を最小限に抑えながら, 価値損失に応じてレベルを優先順位付けする。
次に、データ生成機構をより制御可能な、教師なし環境設計(UED)手法に注意を向ける。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Distance-based Hyperspherical Classification for Multi-source Open-Set
Domain Adaptation [34.97934677830779]
クローズドワールドのシナリオで訓練されたビジョンシステムは、新しい環境条件が提示されると必然的に失敗する。
オープンワールド学習への道のりは、長年にわたる研究課題である。
本研究ではHyMOSを導入することで,マルチソースなOpen-Setドメイン適応を実現する。
論文 参考訳(メタデータ) (2021-07-05T14:56:57Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。