論文の概要: Lipschitz-constrained Unsupervised Skill Discovery
- arxiv url: http://arxiv.org/abs/2202.00914v1
- Date: Wed, 2 Feb 2022 08:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 14:24:42.711362
- Title: Lipschitz-constrained Unsupervised Skill Discovery
- Title(参考訳): リプシッツによる教師なしスキル発見
- Authors: Seohong Park, Jongwook Choi, Jaekyeom Kim, Honglak Lee, Gunhee Kim
- Abstract要約: LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 91.51219447057817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of unsupervised skill discovery, whose goal is to learn
a set of diverse and useful skills with no external reward. There have been a
number of skill discovery methods based on maximizing the mutual information
(MI) between skills and states. However, we point out that their MI objectives
usually prefer static skills to dynamic ones, which may hinder the application
for downstream tasks. To address this issue, we propose Lipschitz-constrained
Skill Discovery (LSD), which encourages the agent to discover more diverse,
dynamic, and far-reaching skills. Another benefit of LSD is that its learned
representation function can be utilized for solving goal-following downstream
tasks even in a zero-shot manner - i.e., without further training or complex
planning. Through experiments on various MuJoCo robotic locomotion and
manipulation environments, we demonstrate that LSD outperforms previous
approaches in terms of skill diversity, state space coverage, and performance
on seven downstream tasks including the challenging task of following multiple
goals on Humanoid. Our code and videos are available at
https://shpark.me/projects/lsd/.
- Abstract(参考訳): 我々は,非教師なしスキル発見の課題について検討し,その目的は,外部の報酬を伴わずに,多様で有用なスキルセットを学習することである。
スキルと状態間の相互情報(MI)を最大化する技術発見手法がいくつもある。
しかし、これらのMIの目的は通常、動的タスクよりも静的スキルを好んでおり、下流タスクのアプリケーションを妨げる可能性があると指摘する。
この問題に対処するため,我々は,エージェントがより多様な,ダイナミックで,より遠縁なスキルを発見できるように,Lipschitz-Constrained Skill Discovery (LSD)を提案する。
LSDのもう1つの利点は、学習された表現関数が、ゼロショット方式でもゴール追従する下流タスクの解決に利用できることである。
様々なミュージョコロボットのロコモーションと操作環境に関する実験を通じて,lsdはスキルの多様性,状態空間のカバレッジ,7つの下流タスクにおけるパフォーマンス,ヒューマノイド上での複数の目標を追従する困難なタスクなどにおいて,これまでのアプローチを上回っていることを実証する。
私たちのコードとビデオはhttps://shpark.me/projects/lsd/で閲覧できます。
関連論文リスト
- Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Open-Ended Reinforcement Learning with Neural Reward Functions [2.4366811507669115]
高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。
ピクセルベースのMontezumaのRevenge環境では、我々の手法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。
論文 参考訳(メタデータ) (2022-02-16T15:55:22Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。