論文の概要: DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19850v1
- Date: Mon, 26 May 2025 11:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.388952
- Title: DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
- Title(参考訳): DiscoVER: スパース・リワード強化学習のための自動カリキュラム
- Authors: Leander Diaz-Bone, Marco Bagatella, Jonas Hübotter, Andreas Krause,
- Abstract要約: 複雑で高次元的なタスクを解くには、目的のタスクに関連するより単純なタスクを解く必要があると論じる。
目的タスクの方向の探索目標を選択するための,方向指示スパース逆目標条件付き超長距離RL(DISCOVER)を提案する。
- 参考スコア(独自算出の注目度): 33.66640909392995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse-reward reinforcement learning (RL) can model a wide range of highly complex tasks. Solving sparse-reward tasks is RL's core premise - requiring efficient exploration coupled with long-horizon credit assignment - and overcoming these challenges is key for building self-improving agents with superhuman ability. We argue that solving complex and high-dimensional tasks requires solving simpler tasks that are relevant to the target task. In contrast, most prior work designs strategies for selecting exploratory tasks with the objective of solving any task, making exploration of challenging high-dimensional, long-horizon tasks intractable. We find that the sense of direction, necessary for effective exploration, can be extracted from existing RL algorithms, without needing any prior information. Based on this finding, we propose a method for directed sparse-reward goal-conditioned very long-horizon RL (DISCOVER), which selects exploratory goals in the direction of the target task. We connect DISCOVER to principled exploration in bandits, formally bounding the time until the target task becomes achievable in terms of the agent's initial distance to the target, but independent of the volume of the space of all tasks. Empirically, we perform a thorough evaluation in high-dimensional environments. We find that the directed goal selection of DISCOVER solves exploration problems that are beyond the reach of prior state-of-the-art exploration methods in RL.
- Abstract(参考訳): スパース・リワード強化学習(RL)は、幅広い複雑なタスクをモデル化することができる。
スパース・リワード(sparse-reward)タスクの解決は、RLの中核的な前提 – 長期のクレジット割り当てと組み合わせた効率的な探索を必要とする — であり、これらの課題を克服することが、超人的な能力を持つ自己改善エージェントを構築する上で重要である。
複雑で高次元的なタスクを解くには、目的のタスクに関連するより単純なタスクを解く必要があると論じる。
対照的に、これまでのほとんどの作業は、どんなタスクでも解くことを目的として探索的なタスクを選択するための戦略を設計し、高次元の長距離タスクに挑戦する探索を難なくする。
有効な探索に必要な方向感覚は,事前情報を必要としない既存のRLアルゴリズムから抽出できることが判明した。
そこで本研究では,目標とするタスクの方向の探索目標を選択するための,指示スパース逆目標条件付き超長距離RL(DISCOVER)を提案する。
我々は、DiscoVERを盗賊の原理的な探索に結びつけ、ターゲットタスクがターゲットへの初期距離で達成されるまでの時間を正式に制限するが、全てのタスクの空間の体積とは無関係である。
経験的に,我々は高次元環境において徹底的な評価を行う。
そこで,DiscoVERの方向性選択は,従来のRLにおける最先端探査手法の到達範囲を超えている探索問題を解く。
関連論文リスト
- Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks [25.37125069796657]
高いレベルで多くの異なるソリューションを許容するタスクのセットを提案するが、状態の推論が必要であり、最高のパフォーマンスのために数千のステップを先延ばしする必要がある。
汎用階層的RLアプローチは、抽象的なドメイン知識を活用できない限り、しばしば、ディスカウントによる長期的影響を無視する。
論文 参考訳(メタデータ) (2022-06-03T20:38:27Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。