論文の概要: Controllability-Aware Unsupervised Skill Discovery
- arxiv url: http://arxiv.org/abs/2302.05103v2
- Date: Mon, 13 Feb 2023 03:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:32:23.053320
- Title: Controllability-Aware Unsupervised Skill Discovery
- Title(参考訳): 制御可能性を考慮した教師なしスキル発見
- Authors: Seohong Park, Kimin Lee, Youngwoon Lee, Pieter Abbeel
- Abstract要約: 本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
- 参考スコア(独自算出の注目度): 94.19932297743439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key capabilities of intelligent agents is the ability to discover
useful skills without external supervision. However, the current unsupervised
skill discovery methods are often limited to acquiring simple, easy-to-learn
skills due to the lack of incentives to discover more complex, challenging
behaviors. We introduce a novel unsupervised skill discovery method,
Controllability-aware Skill Discovery (CSD), which actively seeks complex,
hard-to-control skills without supervision. The key component of CSD is a
controllability-aware distance function, which assigns larger values to state
transitions that are harder to achieve with the current skills. Combined with
distance-maximizing skill discovery, CSD progressively learns more challenging
skills over the course of training as our jointly trained distance function
reduces rewards for easy-to-achieve skills. Our experimental results in six
robotic manipulation and locomotion environments demonstrate that CSD can
discover diverse complex skills including object manipulation and locomotion
skills with no supervision, significantly outperforming prior unsupervised
skill discovery methods. Videos and code are available at
https://seohong.me/projects/csd/
- Abstract(参考訳): インテリジェントエージェントの重要な能力の1つは、外部の監督なしに有用なスキルを発見する能力である。
しかし、現在の教師なしのスキル発見手法は、より複雑で挑戦的な行動を発見するインセンティブがないため、単純で分かりやすいスキルを取得することに限定されることが多い。
そこで本研究では,制御不能な複雑なスキルを積極的に探究する,教師なしスキル発見法である制御可能性認識スキル発見法(csd)を提案する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
距離を最大化するスキル発見と組み合わせることで、csdはトレーニングの過程で徐々に挑戦的なスキルを習得します。
ロボット操作と移動環境の6つの実験結果から,CSDは物体操作や移動スキルを含む多様な複雑なスキルを,監督なしで発見できることを示した。
ビデオとコードはhttps://seohong.me/projects/csd/で入手できる。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。