論文の概要: DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19850v2
- Date: Mon, 20 Oct 2025 12:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.34642
- Title: DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
- Title(参考訳): DiscoVER: スパース・リワード強化学習のための自動カリキュラム
- Authors: Leander Diaz-Bone, Marco Bagatella, Jonas Hübotter, Andreas Krause,
- Abstract要約: 目標条件付き超長距離RL(DISCOVER)の指向性スパース・リワード法を提案する。
我々は、DiscoVERを盗賊の原理的な探索に結びつけ、ターゲットタスクがターゲットへの初期距離で達成可能になるまでの時間を正式に制限する。
そこで,DiscoVERの方向性選択は,従来のRLにおける最先端探査手法の到達範囲を超えている探索問題を解く。
- 参考スコア(独自算出の注目度): 32.80410217696872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse-reward reinforcement learning (RL) can model a wide range of highly complex tasks. Solving sparse-reward tasks is RL's core premise, requiring efficient exploration coupled with long-horizon credit assignment, and overcoming these challenges is key for building self-improving agents with superhuman ability. Prior work commonly explores with the objective of solving many sparse-reward tasks, making exploration of individual high-dimensional, long-horizon tasks intractable. We argue that solving such challenging tasks requires solving simpler tasks that are relevant to the target task, i.e., whose achieval will teach the agent skills required for solving the target task. We demonstrate that this sense of direction, necessary for effective exploration, can be extracted from existing RL algorithms, without leveraging any prior information. To this end, we propose a method for directed sparse-reward goal-conditioned very long-horizon RL (DISCOVER), which selects exploratory goals in the direction of the target task. We connect DISCOVER to principled exploration in bandits, formally bounding the time until the target task becomes achievable in terms of the agent's initial distance to the target, but independent of the volume of the space of all tasks. We then perform a thorough evaluation in high-dimensional environments. We find that the directed goal selection of DISCOVER solves exploration problems that are beyond the reach of prior state-of-the-art exploration methods in RL.
- Abstract(参考訳): スパース・リワード強化学習(RL)は、幅広い複雑なタスクをモデル化することができる。
スパース・リワード・タスクの解決は、RLの中核的な前提であり、長期のクレジット割り当てと組み合わせた効率的な探索を必要とし、これらの課題を克服することは、超人的な能力を持つ自己改善エージェントを構築する上で鍵となる。
従来の研究は、多くのスパース・リワードタスクを解決し、個々の高次元のロングホライゾンタスクを難解に探索することを目的としていた。
このような課題の解決には,目標タスクに関連する簡単なタスク,すなわち目標タスクの解決に必要なエージェントスキルを教えることが必要である,と我々は主張する。
本研究では,この方向感覚を既存のRLアルゴリズムから抽出できることを示す。
そこで本研究では、目標タスクの方向の探索目標を選択するための、方向転換目標条件付き超長距離RL(DISCOVER)を提案する。
我々は、DiscoVERを盗賊の原理的な探索に結びつけ、ターゲットタスクがターゲットへの初期距離で達成されるまでの時間を正式に制限するが、全てのタスクの空間の体積とは無関係である。
そして、高次元環境において徹底的な評価を行う。
そこで,DiscoVERの方向性選択は,従来のRLにおける最先端探査手法の到達範囲を超えている探索問題を解く。
関連論文リスト
- Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks [25.37125069796657]
高いレベルで多くの異なるソリューションを許容するタスクのセットを提案するが、状態の推論が必要であり、最高のパフォーマンスのために数千のステップを先延ばしする必要がある。
汎用階層的RLアプローチは、抽象的なドメイン知識を活用できない限り、しばしば、ディスカウントによる長期的影響を無視する。
論文 参考訳(メタデータ) (2022-06-03T20:38:27Z) - Wish you were here: Hindsight Goal Selection for long-horizon dexterous
manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。
既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。
実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文 参考訳(メタデータ) (2021-12-01T16:12:32Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。