論文の概要: Periodic Skill Discovery
- arxiv url: http://arxiv.org/abs/2511.03187v1
- Date: Wed, 05 Nov 2025 05:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.332461
- Title: Periodic Skill Discovery
- Title(参考訳): 定期的なスキル発見
- Authors: Jonghae Park, Daesol Cho, Jusuk Lee, Dongseok Shim, Inkyu Jang, H. Jin Kim,
- Abstract要約: 強化学習における教師なしスキル発見は、外部報酬に頼ることなく多様な行動を学ぶことを目的としている。
本研究では,周期的スキル発見(PSD)を提案する。
PSDは、ピクセルベースの観察でも、複雑なロボットタスクの様々な期間で、効果的にスキルを学ぶことができる。
- 参考スコア(独自算出の注目度): 29.68111130076433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised skill discovery in reinforcement learning (RL) aims to learn diverse behaviors without relying on external rewards. However, current methods often overlook the periodic nature of learned skills, focusing instead on increasing the mutual dependence between states and skills or maximizing the distance traveled in latent space. Considering that many robotic tasks -- particularly those involving locomotion -- require periodic behaviors across varying timescales, the ability to discover diverse periodic skills is essential. Motivated by this, we propose Periodic Skill Discovery (PSD), a framework that discovers periodic behaviors in an unsupervised manner. The key idea of PSD is to train an encoder that maps states to a circular latent space, thereby naturally encoding periodicity in the latent representation. By capturing temporal distance, PSD can effectively learn skills with diverse periods in complex robotic tasks, even with pixel-based observations. We further show that these learned skills achieve high performance on downstream tasks such as hurdling. Moreover, integrating PSD with an existing skill discovery method offers more diverse behaviors, thus broadening the agent's repertoire. Our code and demos are available at https://jonghaepark.github.io/psd/
- Abstract(参考訳): 強化学習(RL)における教師なしスキル発見は、外部報酬に頼ることなく多様な行動を学ぶことを目的としている。
しかし、現在の手法はしばしば学習スキルの周期的な性質を軽視し、国家と技能の相互依存を高めたり、潜伏空間を移動する距離を最大化することに集中する。
多くのロボットタスク、特に移動に関わるタスクは、様々な時間スケールにわたる周期的な行動を必要とするため、多様な周期的なスキルを発見する能力は不可欠である。
そこで我々は, 周期的スキル発見(PSD)を提案する。
PSDの鍵となる考え方は、状態が円形のラテント空間にマッピングされるエンコーダを訓練することであり、それによってラテント表現の周期性を自然に符号化することである。
時間的距離を捉えることで、PSDは、ピクセルベースの観察であっても、複雑なロボットタスクの様々な期間で、効果的にスキルを学ぶことができる。
さらに、これらの学習スキルが、ハードリングなどの下流タスクで高いパフォーマンスを達成することを示す。
さらに、PSDと既存のスキル発見手法を統合することで、より多様な振る舞いが可能となり、エージェントのレパートリーが拡大する。
私たちのコードとデモはhttps://jonghaepark.github.io/psd/で公開されています。
関連論文リスト
- SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。