論文の概要: Unsupervised Skill Discovery with Bottleneck Option Learning
- arxiv url: http://arxiv.org/abs/2106.14305v1
- Date: Sun, 27 Jun 2021 18:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 13:52:12.038075
- Title: Unsupervised Skill Discovery with Bottleneck Option Learning
- Title(参考訳): Bottleneck Option Learningを用いた教師なしスキル発見
- Authors: Jaekyeom Kim, Seohong Park, Gunhee Kim
- Abstract要約: Information Bottleneck Option Learning (IBOL) と呼ばれる新しい教師なしスキル発見手法を提案する。
より多様な状態遷移を促進する環境の線形化に加えて、IBOLは多様なスキルの発見を可能にする。
IBOLが複数の最先端の教師なしスキル発見手法より優れていることを実証的に実証した。
- 参考スコア(独自算出の注目度): 43.49494338665518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having the ability to acquire inherent skills from environments without any
external rewards or supervision like humans is an important problem. We propose
a novel unsupervised skill discovery method named Information Bottleneck Option
Learning (IBOL). On top of the linearization of environments that promotes more
various and distant state transitions, IBOL enables the discovery of diverse
skills. It provides the abstraction of the skills learned with the information
bottleneck framework for the options with improved stability and encouraged
disentanglement. We empirically demonstrate that IBOL outperforms multiple
state-of-the-art unsupervised skill discovery methods on the
information-theoretic evaluations and downstream tasks in MuJoCo environments,
including Ant, HalfCheetah, Hopper and D'Kitty.
- Abstract(参考訳): 人間のような外部の報酬や監督なしに、環境から固有のスキルを得る能力を持つことは、重要な問題である。
本稿では,IBOL(Information Bottleneck Option Learning)という,教師なしスキル発見手法を提案する。
より多様な状態遷移を促進する環境の線形化に加えて、IBOLは多様なスキルの発見を可能にする。
安定性を改善し、混乱を促すオプションのために、情報ボトルネックフレームワークで学んだスキルの抽象化を提供する。
我々は,ibolがant, halfcheetah, hopper, d'kittyを含むムジョコ環境における情報理論的な評価と下流課題において, 最先端の非教師付きスキル発見手法よりも優れていることを実証的に証明した。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Skill Discovery of Coordination in Multi-agent Reinforcement Learning [41.67943127631515]
本稿では,複数のエージェントの協調パターンを識別する手法であるMASD(Multi-agent Skill Discovery)を提案する。
一般粒子マルチエージェント環境における協調のレベルにおける様々なスキルの出現を示す。
また,この「ボトルネック」は,一つのエージェントにスキルが崩壊するのを防ぎ,学習スキルの多様性を高めることも明らかにした。
論文 参考訳(メタデータ) (2020-06-07T02:04:15Z) - Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills [155.11646755470582]
情報理論的スキル発見の代替手法として,'Explore, Discover and Learn'(EDL)がある。
本稿では,EDLがカバレッジ問題を克服し,学習スキルの初期状態への依存を減らし,ユーザが学習すべき行動について事前定義できるようにするなど,大きなメリットがあることを示す。
論文 参考訳(メタデータ) (2020-02-10T10:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。