論文の概要: Unsupervised Skill Discovery through Skill Regions Differentiation
- arxiv url: http://arxiv.org/abs/2506.14420v1
- Date: Tue, 17 Jun 2025 11:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.443264
- Title: Unsupervised Skill Discovery through Skill Regions Differentiation
- Title(参考訳): スキル領域の違いによる教師なしスキル発見
- Authors: Ting Xiao, Jiakun Zheng, Rushuai Yang, Kang Xu, Qiaosheng Zhang, Peng Liu, Chenjia Bai,
- Abstract要約: 教師なし強化学習(英語: Unsupervised Reinforcement Learning, RL)は、下流タスクの学習を加速できる多様な行動を発見することを目的としている。
本稿では,他のスキルの探索領域からの1つのスキルの状態密度のずれを最大化する新しいスキル発見目標を提案する。
また、学習したオートエンコーダに基づいて、コンパクトな潜在空間におけるカウントベースの探索に類似した本質的な報酬を定式化する。
- 参考スコア(独自算出の注目度): 6.088346462603191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Reinforcement Learning (RL) aims to discover diverse behaviors that can accelerate the learning of downstream tasks. Previous methods typically focus on entropy-based exploration or empowerment-driven skill learning. However, entropy-based exploration struggles in large-scale state spaces (e.g., images), and empowerment-based methods with Mutual Information (MI) estimations have limitations in state exploration. To address these challenges, we propose a novel skill discovery objective that maximizes the deviation of the state density of one skill from the explored regions of other skills, encouraging inter-skill state diversity similar to the initial MI objective. For state-density estimation, we construct a novel conditional autoencoder with soft modularization for different skill policies in high-dimensional space. Meanwhile, to incentivize intra-skill exploration, we formulate an intrinsic reward based on the learned autoencoder that resembles count-based exploration in a compact latent space. Through extensive experiments in challenging state and image-based tasks, we find our method learns meaningful skills and achieves superior performance in various downstream tasks.
- Abstract(参考訳): 教師なし強化学習(英語: Unsupervised Reinforcement Learning, RL)は、下流タスクの学習を加速できる多様な行動を発見することを目的としている。
従来はエントロピーに基づく探索やエンパワーメント駆動のスキル学習に重点を置いていた。
しかし、エントロピーに基づく探索は、大規模な状態空間(例えば画像)において困難であり、相互情報(MI)推定によるエンパワーメントに基づく手法は、状態探索に制限がある。
これらの課題に対処するため、我々は、あるスキルの状態を他のスキルの探索領域から逸脱させることを最大化する新しいスキル発見目標を提案し、初期のMIの目的と同様のスキル間の多様性を奨励する。
状態密度推定のために、高次元空間における異なるスキルポリシーのためのソフトなモジュール化を備えた条件付きオートエンコーダを構築する。
一方,本研究では,コンパクトな潜伏空間におけるカウントベース探索に類似した学習オートエンコーダに基づく本質的な報酬を定式化する。
課題のある状態と画像に基づくタスクの広範な実験を通じて、本手法は有意義なスキルを習得し、様々な下流タスクにおいて優れた性能を達成する。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery [12.277005054008017]
textbfContrastive dynatextbfmic textbfSkill textbfDiscovery textbf(ComSD)を提案する。
ComSDは、コントラッシブ・ダイナミック・報酬(英語版)という新しい本質的なインセンティブを通じて、多種多様な、探索的な教師なしのスキルを生成する。
また、木のような2D迷路において、識別可能で遠縁な探査技術も発見できる。
論文 参考訳(メタデータ) (2023-09-29T12:53:41Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills [155.11646755470582]
情報理論的スキル発見の代替手法として,'Explore, Discover and Learn'(EDL)がある。
本稿では,EDLがカバレッジ問題を克服し,学習スキルの初期状態への依存を減らし,ユーザが学習すべき行動について事前定義できるようにするなど,大きなメリットがあることを示す。
論文 参考訳(メタデータ) (2020-02-10T10:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。