論文の概要: Search Inspired Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.00460v1
- Date: Sat, 31 Jan 2026 02:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.198761
- Title: Search Inspired Exploration in Reinforcement Learning
- Title(参考訳): 強化学習における探索にインスパイアされた探索
- Authors: Georgios Sotirchos, Zlatan Ajanović, Jens Kober,
- Abstract要約: 本稿では,エージェントの学習の進捗状況に基づいて,サブゴールを設定して探索を積極的に指導する手法を提案する。
検索にインスパイアされたサブゴールは、コスト・ツー・カムとコスト・ツー・ゴーの推定に基づいてフロンティアから優先順位付けされる。
挑戦的なスパース・リワード環境の実験では、SIERLは主要なタスク目標を達成することと、環境内の任意の状態に到達するための一般化の両方において、支配的なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 5.411688702405822
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Exploration in environments with sparse rewards remains a fundamental challenge in reinforcement learning (RL). Existing approaches such as curriculum learning and Go-Explore often rely on hand-crafted heuristics, while curiosity-driven methods risk converging to suboptimal policies. We propose Search-Inspired Exploration in Reinforcement Learning (SIERL), a novel method that actively guides exploration by setting sub-goals based on the agent's learning progress. At the beginning of each episode, SIERL chooses a sub-goal from the \textit{frontier} (the boundary of the agent's known state space), before the agent continues exploring toward the main task objective. The key contribution of our method is the sub-goal selection mechanism, which provides state-action pairs that are neither overly familiar nor completely novel. Thus, it assures that the frontier is expanded systematically and that the agent is capable of reaching any state within it. Inspired by search, sub-goals are prioritized from the frontier based on estimates of cost-to-come and cost-to-go, effectively steering exploration towards the most informative regions. In experiments on challenging sparse-reward environments, SIERL outperforms dominant baselines in both achieving the main task goal and generalizing to reach arbitrary states in the environment.
- Abstract(参考訳): 低報酬環境下での探索は、強化学習(RL)における根本的な課題である。
カリキュラム学習やGo-Exploreのような既存のアプローチは、しばしば手作りのヒューリスティックに頼っている。
本研究では,エージェントの学習進捗に基づいてサブゴールを設定し,探索を活発に指導する新しい手法である検索インスパイアされた強化学習探索(SIERL)を提案する。
各エピソードの冒頭で、SIERLはエージェントがメインタスクの目的に向かって探索を続ける前に、エージェントの既知の状態空間の境界であるtextit{frontier} からサブゴールを選択する。
提案手法の主な貢献はサブゴール選択機構であり, 過度に精通せず, 全く新規でもない状態-作用対を提供する。
したがって、フロンティアが体系的に拡張され、エージェントがその中の任意の状態に到達することができることが保証される。
探索にインスパイアされたサブゴールは、コスト・ツー・カムとコスト・ツー・ゴーの推定に基づいてフロンティアから優先順位付けされ、最も情報性の高い地域への探索を効果的に進める。
挑戦的なスパース・リワード環境の実験では、SIERLは主要なタスク目標を達成することと、環境内の任意の状態に到達するための一般化の両方において、支配的なベースラインを上回ります。
関連論文リスト
- Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning [1.8374319565577155]
本稿では,資源効率の良い意味探索を目的とした新しいDeep Reinforcement Learningアーキテクチャを提案する。
重要な方法論的貢献は、層状報酬関数によるビジョンランゲージモデル(VLM)の共通センスの統合である。
本研究では,本エージェントがオブジェクト発見率を大幅に向上し,セマンティックにリッチな領域へ効果的にナビゲートする学習能力を開発したことを示す。
論文 参考訳(メタデータ) (2025-09-11T11:10:08Z) - Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning [6.266160051617362]
クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。
挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
論文 参考訳(メタデータ) (2024-11-03T01:21:43Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。