論文の概要: Behavior Contrastive Learning for Unsupervised Skill Discovery
- arxiv url: http://arxiv.org/abs/2305.04477v1
- Date: Mon, 8 May 2023 06:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:24:52.163821
- Title: Behavior Contrastive Learning for Unsupervised Skill Discovery
- Title(参考訳): 教師なしスキル発見のための行動コントラスト学習
- Authors: Rushuai Yang, Chenjia Bai, Hongyi Guo, Siyuan Li, Bin Zhao, Zhen Wang,
Peng Liu, Xuelong Li
- Abstract要約: 本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
- 参考スコア(独自算出の注目度): 75.6190748711826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, unsupervised skill discovery aims to learn diverse
skills without extrinsic rewards. Previous methods discover skills by
maximizing the mutual information (MI) between states and skills. However, such
an MI objective tends to learn simple and static skills and may hinder
exploration. In this paper, we propose a novel unsupervised skill discovery
method through contrastive learning among behaviors, which makes the agent
produce similar behaviors for the same skill and diverse behaviors for
different skills. Under mild assumptions, our objective maximizes the MI
between different behaviors based on the same skill, which serves as an upper
bound of the previous MI objective. Meanwhile, our method implicitly increases
the state entropy to obtain better state coverage. We evaluate our method on
challenging mazes and continuous control tasks. The results show that our
method generates diverse and far-reaching skills, and also obtains competitive
performance in downstream tasks compared to the state-of-the-art methods.
- Abstract(参考訳): 強化学習では、教師なしのスキル発見は、外因的な報酬なしに多様なスキルを学ぶことを目的としている。
従来の手法は、国家とスキル間の相互情報(MI)を最大化することでスキルを発見する。
しかし、そのようなMIの目的は単純で静的なスキルを学ぶ傾向があり、探索を妨げる可能性がある。
本稿では,エージェントが同一スキルに対して類似した行動や異なるスキルに対する多様な行動を生み出すための,行動間の対比学習による教師なしスキル発見手法を提案する。
軽微な仮定では、我々の目的は同じスキルに基づいて異なる行動間でMIを最大化し、これは以前のMI目標の上限として機能する。
一方,本手法は状態エントロピーを暗黙的に増加させ,より良好な状態カバレッジを得る。
本手法は,迷路や連続制御タスクの課題に対して評価する。
その結果,本手法は多種多様かつ遠縁なスキルを生み出すとともに,最先端の手法と比較して下流タスクの競争性能も向上することがわかった。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Exploration by Learning Diverse Skills through Successor State Measures [5.062282108230929]
状態空間を均一にカバーする多様なスキルのセットを構築することを目的としている。
我々は,各スキルに規定された政策によって到達した国家の分布を考察し,後継国家対策を活用する。
この新たな形式化により,より堅牢で効率的な探査が可能となった。
論文 参考訳(メタデータ) (2024-06-14T15:36:15Z) - SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。