論文の概要: Scaling Goal-based Exploration via Pruning Proto-goals
- arxiv url: http://arxiv.org/abs/2302.04693v1
- Date: Thu, 9 Feb 2023 15:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:37:24.636373
- Title: Scaling Goal-based Exploration via Pruning Proto-goals
- Title(参考訳): Pruning Proto-Goalsによるゴールベース探索のスケールアップ
- Authors: Akhil Bagaria, Ray Jiang, Ramana Kumar, Tom Schaul
- Abstract要約: 強化学習における最も厄介な課題の1つは、広大な領域に拡大する探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
提案手法は,人間設計者が広いが有意義な原ゴール空間を指定できるように,中間領域を明示的に求めている。
- 参考スコア(独自算出の注目度): 10.976262029859424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the gnarliest challenges in reinforcement learning (RL) is exploration
that scales to vast domains, where novelty-, or coverage-seeking behaviour
falls short. Goal-directed, purposeful behaviours are able to overcome this,
but rely on a good goal space. The core challenge in goal discovery is finding
the right balance between generality (not hand-crafted) and tractability
(useful, not too many). Our approach explicitly seeks the middle ground,
enabling the human designer to specify a vast but meaningful proto-goal space,
and an autonomous discovery process to refine this to a narrower space of
controllable, reachable, novel, and relevant goals. The effectiveness of
goal-conditioned exploration with the latter is then demonstrated in three
challenging environments.
- Abstract(参考訳): 強化学習(RL)における最も厄介な課題の1つは、新規性やカバレッジを求める行動が不足している広大な領域への探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
ゴール発見における中核的な課題は、一般性(手作りではない)とトラクタビリティ(あまり役に立たない)の適切なバランスを見つけることです。
提案手法では,人間設計者が広いが有意義な原ゴール空間を指定でき,自律的な発見プロセスにより,制御可能で到達可能で,新規で,関連性の高い目標の狭い領域に展開することができる。
次に,目標条件付き探索の有効性を3つの課題環境で実証した。
関連論文リスト
- Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning [6.266160051617362]
クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。
挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
論文 参考訳(メタデータ) (2024-11-03T01:21:43Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Hierarchical reinforcement learning with natural language subgoals [26.725710518119044]
我々は、人間による課題解決のデータを用いて、3Dエンボディ環境での長いタスクのセットの目標空間をソフトに監督する。
これは2つの利点がある: 第一に、人間に優しい参加者からこのデータを生成するのは簡単である; 第二に、人間に関連するタスクにおいて、幅広いサブゴールを表現するのに十分な柔軟性がある。
提案手法は,これらのタスクにおいて専門家の振る舞いをクローンするエージェントと,この教師付きサブゴール空間を使わずに,HRLをスクラッチから実行するエージェントよりも優れる。
論文 参考訳(メタデータ) (2023-09-20T18:03:04Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Maximum Entropy Gain Exploration for Long Horizon Multi-goal
Reinforcement Learning [35.44552072132894]
学習エージェントは、歴史的達成目標分布のエントロピーを最大化する固有の目標を設定するべきである。
本研究の戦略は, 長期多目標課題における先行技術よりも, はるかに優れたサンプリング効率を達成できることが示される。
論文 参考訳(メタデータ) (2020-07-06T15:36:05Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - LEAF: Latent Exploration Along the Frontier [47.304858727365094]
自己組織化された目標の提案と到達は、探索と効率的なポリシー学習アルゴリズムの鍵となるコンポーネントである。
到達可能な状態の動的対応多様体を学習する探索フレームワークを提案する。
提案手法は,ロボット環境における既存のベースラインよりも優れた,自己教師付き探索アルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-05-21T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。