論文の概要: Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching
- arxiv url: http://arxiv.org/abs/2110.14457v1
- Date: Wed, 27 Oct 2021 14:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:46:18.611925
- Title: Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching
- Title(参考訳): direct then diffuse: 状態被覆とゴール到達のための教師なしスキル発見
- Authors: Pierre-Alexandre Kamienny, Jean Tarbouriech, Alessandro Lazaric,
Ludovic Denoyer
- Abstract要約: 我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
- 参考スコア(独自算出の注目度): 98.25207998996066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning meaningful behaviors in the absence of reward is a difficult problem
in reinforcement learning. A desirable and challenging unsupervised objective
is to learn a set of diverse skills that provide a thorough coverage of the
state space while being directed, i.e., reliably reaching distinct regions of
the environment. In this paper, we build on the mutual information framework
for skill discovery and introduce UPSIDE, which addresses the
coverage-directedness trade-off in the following ways: 1) We design policies
with a decoupled structure of a directed skill, trained to reach a specific
region, followed by a diffusing part that induces a local coverage. 2) We
optimize policies by maximizing their number under the constraint that each of
them reaches distinct regions of the environment (i.e., they are sufficiently
discriminable) and prove that this serves as a lower bound to the original
mutual information objective. 3) Finally, we compose the learned directed
skills into a growing tree that adaptively covers the environment. We
illustrate in several navigation and control environments how the skills
learned by UPSIDE solve sparse-reward downstream tasks better than existing
baselines.
- Abstract(参考訳): 報酬無しで意味のある行動を学ぶことは強化学習において難しい問題である。
望ましい、かつ困難な目的は、指示を受けながら州空間を徹底的にカバーする一連の多様なスキル、すなわち環境の異なる領域に確実に到達することである。
本稿では,スキル発見のための相互情報フレームワークを構築し,その上層部を紹介する。
1) ある領域に到達するよう訓練された有向スキルの疎結合構造でポリシーを設計し,その後に局所的カバレッジを誘導する拡散部を設計する。
2) それぞれが環境の異なる領域(つまり十分に識別可能)に達するという制約の下で, それらの数を最大化することで政策を最適化し, 元の相互情報目的に対する下位境界として機能することを証明する。
3) 最後に,学習した指導力を,環境を適応的にカバーする成長木に構成する。
複数のナビゲーション環境と制御環境において,アップサイドが学習したスキルが,既存のベースラインよりもスパースリワード下流タスクをうまく解決することを示す。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Wasserstein Unsupervised Reinforcement Learning [29.895142928565228]
教師なし強化学習は、エージェントに外部の報酬なしに、いくつかのポリシーやスキルを学ぶよう訓練することを目的としている。
これらの事前訓練されたポリシーは、外部報酬が与えられた場合の潜在学習を加速し、階層的強化学習における原始的な選択肢としても使用できる。
そこで我々は,異なる政策によって引き起こされる状態分布の距離を直接的に最大化する,ワッサーシュタイン無教師強化学習(WURL)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:41:51Z) - DisTop: Discovering a Topological representation to learn diverse and
rewarding skills [0.0]
DisTopは多様なスキルを同時に学習し、報酬スキルの改善にフォーカスした新しいモデルだ。
DisTopは、教師なしのコントラスト損失、成長するネットワーク、目標条件付きポリシーを使用して、環境の離散的なトポロジを構築する。
報奨が不十分な場合, DisTop は階層的強化学習 (HRL) と比較して最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-06-06T10:09:05Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z) - Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills [155.11646755470582]
情報理論的スキル発見の代替手法として,'Explore, Discover and Learn'(EDL)がある。
本稿では,EDLがカバレッジ問題を克服し,学習スキルの初期状態への依存を減らし,ユーザが学習すべき行動について事前定義できるようにするなど,大きなメリットがあることを示す。
論文 参考訳(メタデータ) (2020-02-10T10:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。