論文の概要: ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill
Discovery
- arxiv url: http://arxiv.org/abs/2309.17203v1
- Date: Fri, 29 Sep 2023 12:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:55:11.677163
- Title: ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill
Discovery
- Title(参考訳): ComSD:教師なしスキル発見における行動品質と多様性のバランス
- Authors: Xin Liu, Yaran Chen, Dongbin Zhao
- Abstract要約: 本稿では,Contrastive Multi-Objectives Skill Discovery (ComSD)を提案する。
ComSDは、より合理的なMI推定と動的に重み付けされた本質的な報酬によって、発見された行動の質と多様性の対立を緩和しようとする。
ComSDは最先端の適応性能を示し、近年の高度な技術発見方法よりも優れています。
- 参考スコア(独自算出の注目度): 13.79812334223457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning diverse and qualified behaviors for utilization and adaptation
without supervision is a key ability of intelligent creatures. Ideal
unsupervised skill discovery methods are able to produce diverse and qualified
skills in the absence of extrinsic reward, while the discovered skill set can
efficiently adapt to downstream tasks in various ways. Maximizing the Mutual
Information (MI) between skills and visited states can achieve ideal
skill-conditioned behavior distillation in theory. However, it's difficult for
recent advanced methods to well balance behavioral quality (exploration) and
diversity (exploitation) in practice, which may be attributed to the
unreasonable MI estimation by their rigid intrinsic reward design. In this
paper, we propose Contrastive multi-objectives Skill Discovery (ComSD) which
tries to mitigate the quality-versus-diversity conflict of discovered behaviors
through a more reasonable MI estimation and a dynamically weighted intrinsic
reward. ComSD proposes to employ contrastive learning for a more reasonable
estimation of skill-conditioned entropy in MI decomposition. In addition, a
novel weighting mechanism is proposed to dynamically balance different entropy
(in MI decomposition) estimations into a novel multi-objective intrinsic
reward, to improve both skill diversity and quality. For challenging robot
behavior discovery, ComSD can produce a qualified skill set consisting of
diverse behaviors at different activity levels, which recent advanced methods
cannot. On numerical evaluations, ComSD exhibits state-of-the-art adaptation
performance, significantly outperforming recent advanced skill discovery
methods across all skill combination tasks and most skill finetuning tasks.
Codes will be released at https://github.com/liuxin0824/ComSD.
- Abstract(参考訳): 監視なしで利用と適応のために多様で適格な行動を学ぶことは、知的生物の重要な能力である。
理想的な教師なしのスキル発見手法は、外因的な報酬がなければ多種多様なスキルを生み出すことができ、発見されたスキルセットは下流のタスクに様々な方法で効率的に適応することができる。
技術と訪問国間の相互情報(MI)の最大化は、理論上理想的なスキル条件の行動蒸留を実現することができる。
しかし,近年の手法では,厳密な本質的な報酬設計による不合理なMI推定に起因して,行動品質(探索)と多様性(探索)のバランスをとることは困難である。
本稿では,より合理的なMI推定と動的に重み付けされた本質的な報酬により,発見行動の品質と多様性の対立を軽減するためのコントラスト多目的スキル発見(ComSD)を提案する。
ComSDは、MI分解におけるスキル条件付きエントロピーをより合理的に推定するために、コントラスト学習を採用することを提案する。
さらに,異なるエントロピー(mi分解)推定を,新たな多目的固有報酬に動的にバランスさせ,スキルの多様性と品質を向上させる新しい重み付け機構を提案する。
挑戦的なロボット行動発見のために、ComSDは様々な活動レベルにおける多様な行動からなる資格あるスキルセットを生成することができる。
数値評価において、comsdは最先端の適応性能を示し、スキルの組み合わせタスクやほとんどのスキルの微調整タスクにおいて、最近の高度なスキル発見手法を著しく上回っている。
コードはhttps://github.com/liuxin0824/ComSDでリリースされる。
関連論文リスト
- C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controlled Diversity with Preference : Towards Learning a Diverse Set of
Desired Skills [15.187171070594935]
エージェントが多様かつ望ましいスキルのセットを学ぶための協調的なヒューマンガイド機構である制御された多様性と優先度(CDP)を提案する。
鍵となる原則は、軌道上の人間の嗜好ラベルを用いて訓練された嗜好モデルに従って、好まれる領域にスキルの発見を制限することである。
2次元ナビゲーションとMujoco環境に対する我々のアプローチを評価し、多様な、しかし望ましいスキルを発見できることを実証した。
論文 参考訳(メタデータ) (2023-03-07T03:37:47Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。