論文の概要: Enhanced Generalization through Prioritization and Diversity in
Self-Imitation Reinforcement Learning over Procedural Environments with
Sparse Rewards
- arxiv url: http://arxiv.org/abs/2311.00426v1
- Date: Wed, 1 Nov 2023 10:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:10:54.016612
- Title: Enhanced Generalization through Prioritization and Diversity in
Self-Imitation Reinforcement Learning over Procedural Environments with
Sparse Rewards
- Title(参考訳): 疎開型手続き環境における自己刺激強化学習における優先化と多様性による一般化の促進
- Authors: Alain Andres, Daochen Zha and Javier Del Ser
- Abstract要約: 探索は、低報酬の強化学習(RL)において、根本的な課題となる。
セルフイミテーション学習は、リプレイバッファを利用して、成功した振る舞いを保存し、再現する、探索のための有望なアプローチとして登場した。
持続する経験をランク付けする新たな自己IL法が提案されているが、それらの意義に関わらず、遷移を均一に再生する。
本研究では、遷移を異なる方法で優先順位付けし、優先順位付け手法を手続き的に生成する環境に拡張することで、自己ILサンプリング戦略をカスタマイズする。
- 参考スコア(独自算出の注目度): 36.07007894756066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration poses a fundamental challenge in Reinforcement Learning (RL) with
sparse rewards, limiting an agent's ability to learn optimal decision-making
due to a lack of informative feedback signals. Self-Imitation Learning
(self-IL) has emerged as a promising approach for exploration, leveraging a
replay buffer to store and reproduce successful behaviors. However, traditional
self-IL methods, which rely on high-return transitions and assume singleton
environments, face challenges in generalization, especially in
procedurally-generated (PCG) environments. Therefore, new self-IL methods have
been proposed to rank which experiences to persist, but they replay transitions
uniformly regardless of their significance, and do not address the diversity of
the stored demonstrations. In this work, we propose tailored self-IL sampling
strategies by prioritizing transitions in different ways and extending
prioritization techniques to PCG environments. We also address diversity loss
through modifications to counteract the impact of generalization requirements
and bias introduced by prioritization techniques. Our experimental analysis,
conducted over three PCG sparse reward environments, including MiniGrid and
ProcGen, highlights the benefits of our proposed modifications, achieving a new
state-of-the-art performance in the MiniGrid-MultiRoom-N12-S10 environment.
- Abstract(参考訳): 探索は、情報的フィードバック信号の欠如により、エージェントが最適な意思決定を学習する能力を制限し、わずかな報酬で強化学習(RL)において根本的な課題となる。
セルフイミテーション学習(self-IL)は,リプレイバッファを利用して動作の保存と再現を行う,探索のための有望なアプローチとして登場した。
しかし、ハイリターン遷移に頼りシングルトン環境を仮定する従来のセルフIL手法は、特に手続き的に生成されたPCG環境において、一般化の課題に直面している。
そのため、持続する経験をランク付けする新たな自己IL法が提案されているが、それらの意義に関わらず遷移を均一に再生し、保存されたデモの多様性に対処しない。
本研究では,遷移を異なる方法で優先順位付けし,優先順位付け手法をpcg環境に拡張することで,自己加重サンプリング戦略を提案する。
また,一般化要求と優先順位付け手法によるバイアスの影響に対処するため,修正による多様性の損失にも対処した。
筆者らは,MiniGrid や ProcGen を含む3つのPCGスパース報酬環境上で行った実験により,提案手法の利点を強調し,MiniGrid-MultiRoom-N12-S10環境における新たな最先端性能を実現する。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling [36.481053480535515]
PIPER: Hindsight Relabeling を用いたPrimitive-Informed Preferenceに基づく階層型強化学習について紹介する。
我々の緩和に基づくアプローチは、既存の階層的アプローチに共通する非定常性を緩和することができる。
実用不可能なサブゴール予測の防止と退化解の回避のために,プリミティブインフォームド正規化を提案する。
論文 参考訳(メタデータ) (2024-04-20T17:06:00Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Distance-based Hyperspherical Classification for Multi-source Open-Set
Domain Adaptation [34.97934677830779]
クローズドワールドのシナリオで訓練されたビジョンシステムは、新しい環境条件が提示されると必然的に失敗する。
オープンワールド学習への道のりは、長年にわたる研究課題である。
本研究ではHyMOSを導入することで,マルチソースなOpen-Setドメイン適応を実現する。
論文 参考訳(メタデータ) (2021-07-05T14:56:57Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。