論文の概要: DisTop: Discovering a Topological representation to learn diverse and
rewarding skills
- arxiv url: http://arxiv.org/abs/2106.03853v1
- Date: Sun, 6 Jun 2021 10:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:50:12.867603
- Title: DisTop: Discovering a Topological representation to learn diverse and
rewarding skills
- Title(参考訳): DisTop:多様性と報酬のスキルを学ぶためのトポロジカル表現の発見
- Authors: Arthur Aubret, Laetitia matignon and Salima Hassas
- Abstract要約: DisTopは多様なスキルを同時に学習し、報酬スキルの改善にフォーカスした新しいモデルだ。
DisTopは、教師なしのコントラスト損失、成長するネットワーク、目標条件付きポリシーを使用して、環境の離散的なトポロジを構築する。
報奨が不十分な場合, DisTop は階層的強化学習 (HRL) と比較して最先端の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimal way for a deep reinforcement learning (DRL) agent to explore is
to learn a set of skills that achieves a uniform distribution of states.
Following this,we introduce DisTop, a new model that simultaneously learns
diverse skills and focuses on improving rewarding skills. DisTop progressively
builds a discrete topology of the environment using an unsupervised contrastive
loss, a growing network and a goal-conditioned policy. Using this topology, a
state-independent hierarchical policy can select where the agent has to keep
discovering skills in the state space. In turn, the newly visited states allows
an improved learnt representation and the learning loop continues. Our
experiments emphasize that DisTop is agnostic to the ground state
representation and that the agent can discover the topology of its environment
whether the states are high-dimensional binary data, images, or proprioceptive
inputs. We demonstrate that this paradigm is competitiveon MuJoCo benchmarks
with state-of-the-art algorithms on both single-task dense rewards and diverse
skill discovery. By combining these two aspects, we showthat DisTop achieves
state-of-the-art performance in comparison with hierarchical reinforcement
learning (HRL) when rewards are sparse. We believe DisTop opens new
perspectives by showing that bottom-up skill discovery combined with
representation learning can unlock the exploration challenge in DRL.
- Abstract(参考訳): 深層強化学習(DRL)エージェントが探索する最適な方法は、状態の均一な分布を達成するための一連のスキルを学ぶことである。
これに続いて,多様なスキルを習得し,報酬スキルの向上に重点を置く,新たなモデルであるdistopを紹介する。
DisTopは、教師なしのコントラスト損失、成長するネットワーク、目標条件付きポリシーを用いて、環境の離散的なトポロジを段階的に構築する。
このトポロジーを使用して、状態に依存しない階層ポリシーは、エージェントが状態空間でスキルを発見する必要がある場所を選択することができる。
新たに訪れた状態によって学習表現が改善され、学習ループが継続される。
実験では、distopは基底状態表現に無依存であり、エージェントは状態が高次元のバイナリデータ、画像、あるいは固有入力であるかどうかに関わらず、その環境のトポロジーを発見できることを強調した。
このパラダイムは、シングルタスクの高密度報酬と多様なスキル発見の両面で、最先端のアルゴリズムとMuJoCoベンチマークの競合性を示す。
これらの2つの側面を組み合わせることで、報酬が不足している場合、Distopは階層的強化学習(HRL)と比較して最先端のパフォーマンスを達成することを示す。
DisTopは、ボトムアップスキル発見と表現学習を組み合わせることで、DRLの探索課題を解き放つことができることを示すことで、新たな視点を開拓すると考えている。
関連論文リスト
- Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical
Reinforcement Learning [13.57305458734617]
本稿では,表現学習と模倣学習を併用したサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。
具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。
サブタスクの学習を促進するために,1)行動と表現の基盤となる関係を捉えた行動認識表現学習,2)効率的な探索のための識別器に基づく自己刺激学習,3)一貫性フィルタリングによるアンサンブル行動のクローニングなどを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T09:24:49Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。