論文の概要: Unsupervised Skill-Discovery and Skill-Learning in Minecraft
- arxiv url: http://arxiv.org/abs/2107.08398v1
- Date: Sun, 18 Jul 2021 09:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:17:12.525828
- Title: Unsupervised Skill-Discovery and Skill-Learning in Minecraft
- Title(参考訳): minecraftにおける教師なしスキル発見とスキル学習
- Authors: Juan Jos\'e Nieto, Roger Creus and Xavier Giro-i-Nieto
- Abstract要約: 状態表現の教師なしスキル発見と自己教師付き学習を活用する。
変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。
以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-training Reinforcement Learning agents in a task-agnostic manner has
shown promising results. However, previous works still struggle in learning and
discovering meaningful skills in high-dimensional state-spaces, such as
pixel-spaces. We approach the problem by leveraging unsupervised skill
discovery and self-supervised learning of state representations. In our work,
we learn a compact latent representation by making use of variational and
contrastive techniques. We demonstrate that both enable RL agents to learn a
set of basic navigation skills by maximizing an information theoretic
objective. We assess our method in Minecraft 3D pixel maps with different
complexities. Our results show that representations and conditioned policies
learned from pixels are enough for toy examples, but do not scale to realistic
and complex maps. To overcome these limitations, we explore alternative input
observations such as the relative position of the agent along with the raw
pixels.
- Abstract(参考訳): プレトレーニング強化学習エージェントは,タスク非依存の方法で,有望な結果を示した。
しかし、以前の作品は、ピクセル空間のような高次元状態空間における有意義なスキルの習得や発見に苦慮している。
我々は,教師なしスキル発見と自己教師なし状態表現学習を用いてこの問題にアプローチする。
本研究では,変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。
情報理論の目的を最大化することにより,RLエージェントが基本的なナビゲーションスキルを習得できることを実証する。
複雑度が異なるMinecraft 3D ピクセルマップで本手法を評価する。
以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことがわかった。
これらの限界を克服するために,エージェントの相対位置や生のピクセルといった別の入力観測を探索する。
関連論文リスト
- Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z) - Acceleration of Actor-Critic Deep Reinforcement Learning for Visual
Grasping in Clutter by State Representation Learning Based on Disentanglement
of a Raw Input Image [4.970364068620608]
アクター・クリティック・ディープ・強化学習(RL)法は、多種多様な物体をつかむ際には、通常非常に低性能である。
状態表現学習 (SRL) を用いて, RL において重要な情報をまずエンコードする。
その結果,原画像の歪みに基づく前処理が,コンパクトな表現を効果的に捉える鍵であることが判明した。
論文 参考訳(メタデータ) (2020-02-27T03:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。