論文の概要: SUSD: Structured Unsupervised Skill Discovery through State Factorization
- arxiv url: http://arxiv.org/abs/2602.01619v1
- Date: Mon, 02 Feb 2026 04:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.897425
- Title: SUSD: Structured Unsupervised Skill Discovery through State Factorization
- Title(参考訳): SUSD: 状態因子化による構造化された教師なしスキル発見
- Authors: Seyed Mohammad Hadi Hosseini, Mahdieh Soleymani Baghshah,
- Abstract要約: 教師なしスキル発見(USD)は、外因的な報酬に頼ることなく、多様なスキルセットを自律的に学習することを目的としている。
状態空間を独立成分に分解することで環境の構成構造を利用する新しいフレームワークであるSUSDを紹介する。
SUSDは異なる要因に異なるスキル変数を割り当て、スキル発見プロセスのよりきめ細かい制御を可能にする。
- 参考スコア(独自算出の注目度): 12.57032768854794
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised Skill Discovery (USD) aims to autonomously learn a diverse set of skills without relying on extrinsic rewards. One of the most common USD approaches is to maximize the Mutual Information (MI) between skill latent variables and states. However, MI-based methods tend to favor simple, static skills due to their invariance properties, limiting the discovery of dynamic, task-relevant behaviors. Distance-Maximizing Skill Discovery (DSD) promotes more dynamic skills by leveraging state-space distances, yet still fall short in encouraging comprehensive skill sets that engage all controllable factors or entities in the environment. In this work, we introduce SUSD, a novel framework that harnesses the compositional structure of environments by factorizing the state space into independent components (e.g., objects or controllable entities). SUSD allocates distinct skill variables to different factors, enabling more fine-grained control on the skill discovery process. A dynamic model also tracks learning across factors, adaptively steering the agent's focus toward underexplored factors. This structured approach not only promotes the discovery of richer and more diverse skills, but also yields a factorized skill representation that enables fine-grained and disentangled control over individual entities which facilitates efficient training of compositional downstream tasks via Hierarchical Reinforcement Learning (HRL). Our experimental results across three environments, with factors ranging from 1 to 10, demonstrate that our method can discover diverse and complex skills without supervision, significantly outperforming existing unsupervised skill discovery methods in factorized and complex environments. Code is publicly available at: https://github.com/hadi-hosseini/SUSD.
- Abstract(参考訳): 教師なしスキル発見(USD)は、外因的な報酬に頼ることなく、多様なスキルセットを自律的に学習することを目的としている。
最も一般的なUSDアプローチの1つは、スキル潜伏変数と状態の間の相互情報(MI)を最大化することである。
しかし、MIベースの手法は、その不変性のために単純で静的なスキルを好んでおり、動的タスク関連行動の発見を制限している。
距離最大化スキル発見(DSD)は、状態空間距離を活用することによってよりダイナミックなスキルを促進するが、環境内のすべてのコントロール可能な要素やエンティティを関与させる包括的なスキルセットを奨励するには依然として不足している。
本研究では、状態空間を独立したコンポーネント(オブジェクトや制御可能なエンティティなど)に分解することで、環境の構成構造を利用する新しいフレームワークであるSUSDを紹介する。
SUSDは異なる要因に異なるスキル変数を割り当て、スキル発見プロセスのよりきめ細かい制御を可能にする。
動的モデルは、要因間の学習も追跡し、エージェントが未探索の要因に焦点を合わせるのを適応的に制御する。
この構造的アプローチは、より豊かで多様なスキルの発見を促進するだけでなく、階層的強化学習(HRL)を通じた合成下流タスクの効率的なトレーニングを容易にする、個々のエンティティのきめ細やかな制御を可能にする、分解されたスキル表現をもたらす。
1から10の因子を含む3つの環境における実験結果から,本手法は多様かつ複雑なスキルを,監督なしで発見できることが示され,因子化・複雑化環境における既存の教師なしスキル発見方法よりも著しく優れていた。
コードはhttps://github.com/hadi-hosseini/SUSD.comで公開されている。
関連論文リスト
- Unsupervised Skill Discovery through Skill Regions Differentiation [6.088346462603191]
教師なし強化学習(英語: Unsupervised Reinforcement Learning, RL)は、下流タスクの学習を加速できる多様な行動を発見することを目的としている。
本稿では,他のスキルの探索領域からの1つのスキルの状態密度のずれを最大化する新しいスキル発見目標を提案する。
また、学習したオートエンコーダに基づいて、コンパクトな潜在空間におけるカウントベースの探索に類似した本質的な報酬を定式化する。
論文 参考訳(メタデータ) (2025-06-17T11:30:04Z) - SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery [12.277005054008017]
textbfContrastive dynatextbfmic textbfSkill textbfDiscovery textbf(ComSD)を提案する。
ComSDは、コントラッシブ・ダイナミック・報酬(英語版)という新しい本質的なインセンティブを通じて、多種多様な、探索的な教師なしのスキルを生成する。
また、木のような2D迷路において、識別可能で遠縁な探査技術も発見できる。
論文 参考訳(メタデータ) (2023-09-29T12:53:41Z) - C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。