論文の概要: Exploration by Learning Diverse Skills through Successor State Measures
- arxiv url: http://arxiv.org/abs/2406.10127v1
- Date: Fri, 14 Jun 2024 15:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:06:25.418103
- Title: Exploration by Learning Diverse Skills through Successor State Measures
- Title(参考訳): 後継者国策による異種スキルの学習による探索
- Authors: Paul-Antoine Le Tolguenec, Yann Besse, Florent Teichteil-Konigsbuch, Dennis G. Wilson, Emmanuel Rachelson,
- Abstract要約: 状態空間を均一にカバーする多様なスキルのセットを構築することを目的としている。
我々は,各スキルに規定された政策によって到達した国家の分布を考察し,後継国家対策を活用する。
この新たな形式化により,より堅牢で効率的な探査が可能となった。
- 参考スコア(独自算出の注目度): 5.062282108230929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform different skills can encourage agents to explore. In this work, we aim to construct a set of diverse skills which uniformly cover the state space. We propose a formalization of this search for diverse skills, building on a previous definition based on the mutual information between states and skills. We consider the distribution of states reached by a policy conditioned on each skill and leverage the successor state measure to maximize the difference between these skill distributions. We call this approach LEADS: Learning Diverse Skills through Successor States. We demonstrate our approach on a set of maze navigation and robotic control tasks which show that our method is capable of constructing a diverse set of skills which exhaustively cover the state space without relying on reward or exploration bonuses. Our findings demonstrate that this new formalization promotes more robust and efficient exploration by combining mutual information maximization and exploration bonuses.
- Abstract(参考訳): 異なるスキルを実行する能力は、エージェントに探索を促すことができる。
本研究では,状態空間を均一にカバーする多様なスキルのセットを構築することを目的とする。
本稿では,国家とスキルの相互情報に基づく事前定義に基づいて,多様なスキルを探索する手法の形式化を提案する。
我々は,各スキルに規定された政策によって到達した状態の分布を考察し,これらのスキル分布の違いを最大化するために,後継状態尺度を活用する。
我々はこのアプローチをLEADS: Learning Diverse Skills through Successor Statesと呼んでいる。
本手法は,報奨や探査ボーナスに頼ることなく,州空間を網羅的にカバーする多様なスキルセットを構築することができることを示す,迷路ナビゲーションとロボット制御タスクのセットに対するアプローチを実証する。
この新たな形式化は,相互情報の最大化と探索ボーナスを組み合わせることにより,より堅牢で効率的な探索を促進することを示す。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。
LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。
本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文 参考訳(メタデータ) (2024-06-07T04:25:38Z) - Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z) - Skill Discovery of Coordination in Multi-agent Reinforcement Learning [41.67943127631515]
本稿では,複数のエージェントの協調パターンを識別する手法であるMASD(Multi-agent Skill Discovery)を提案する。
一般粒子マルチエージェント環境における協調のレベルにおける様々なスキルの出現を示す。
また,この「ボトルネック」は,一つのエージェントにスキルが崩壊するのを防ぎ,学習スキルの多様性を高めることも明らかにした。
論文 参考訳(メタデータ) (2020-06-07T02:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。