論文の概要: Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.12999v1
- Date: Fri, 19 Apr 2024 16:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:26:33.365232
- Title: Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning
- Title(参考訳): ゴールコンディション強化学習のための適応スキル分布によるゴール探索
- Authors: Lisheng Wu, Ke Chen,
- Abstract要約: 本研究では,学習過程における環境構造パターンの把握を目的とした新しいフレームワークであるGAASDを紹介する。
適応的スキル分布を用いた探索効率は, 均一なスキル分布に比べて顕著に向上した。
- 参考スコア(独自算出の注目度): 5.536147897588383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration efficiency poses a significant challenge in goal-conditioned reinforcement learning (GCRL) tasks, particularly those with long horizons and sparse rewards. A primary limitation to exploration efficiency is the agent's inability to leverage environmental structural patterns. In this study, we introduce a novel framework, GEASD, designed to capture these patterns through an adaptive skill distribution during the learning process. This distribution optimizes the local entropy of achieved goals within a contextual horizon, enhancing goal-spreading behaviors and facilitating deep exploration in states containing familiar structural patterns. Our experiments reveal marked improvements in exploration efficiency using the adaptive skill distribution compared to a uniform skill distribution. Additionally, the learned skill distribution demonstrates robust generalization capabilities, achieving substantial exploration progress in unseen tasks containing similar local structures.
- Abstract(参考訳): 探索効率はゴール条件強化学習(GCRL)タスク、特に長い地平線とまばらな報酬を持つタスクにおいて大きな課題となる。
探索効率に対する主な制限は、エージェントが環境構造パターンを活用できないことである。
本研究では,学習過程における適応的なスキル分布を通して,これらのパターンをキャプチャする新しいフレームワークであるGAASDを提案する。
この分布は、達成されたゴールの局所的なエントロピーを文脈的水平線内で最適化し、ゴールスレッディングの振る舞いを強化し、よく知られた構造パターンを含む状態の深い探索を容易にする。
本実験により, 適応的スキル分布を用いた探索効率は, 均一なスキル分布と比較して著しく向上した。
さらに、学習したスキル分布は、ロバストな一般化能力を示し、類似の局所構造を含む見知らぬタスクにおいて、実質的な探索の進歩を達成する。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Landmark Guided Active Exploration with State-specific Balance Coefficient [4.539657469634845]
目標条件付き値関数に基づいて,目標空間に計画を立てることにより,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の尺度を統合することで,ランドマーク誘導型探査戦略を提案する。
論文 参考訳(メタデータ) (2023-06-30T08:54:47Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - A Probabilistic Interpretation of Self-Paced Learning with Applications
to Reinforcement Learning [30.69129405392038]
強化学習における自動カリキュラム生成のアプローチを提案する。
我々は、よく知られた自己評価学習パラダイムを、トレーニングタスクよりも分布を誘導するものとして定式化する。
実験により、この誘導分布のトレーニングは、RLアルゴリズム間の局所最適性の低下を避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2021-02-25T21:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。