論文の概要: SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions
- arxiv url: http://arxiv.org/abs/2410.18416v1
- Date: Thu, 24 Oct 2024 04:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:49:01.289426
- Title: SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions
- Title(参考訳): SkiLD: 因子相互作用による教師なしスキル発見
- Authors: Zizhao Wang, Jiaheng Hu, Caleb Chuck, Stephen Chen, Roberto Martín-Martín, Amy Zhang, Scott Niekum, Peter Stone,
- Abstract要約: この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
- 参考スコア(独自算出の注目度): 48.003320766433966
- License:
- Abstract: Unsupervised skill discovery carries the promise that an intelligent agent can learn reusable skills through autonomous, reward-free environment interaction. Existing unsupervised skill discovery methods learn skills by encouraging distinguishable behaviors that cover diverse states. However, in complex environments with many state factors (e.g., household environments with many objects), learning skills that cover all possible states is impossible, and naively encouraging state diversity often leads to simple skills that are not ideal for solving downstream tasks. This work introduces Skill Discovery from Local Dependencies (Skild), which leverages state factorization as a natural inductive bias to guide the skill learning process. The key intuition guiding Skild is that skills that induce <b>diverse interactions</b> between state factors are often more valuable for solving downstream tasks. To this end, Skild develops a novel skill learning objective that explicitly encourages the mastering of skills that effectively induce different interactions within an environment. We evaluate Skild in several domains with challenging, long-horizon sparse reward tasks including a realistic simulated household robot domain, where Skild successfully learns skills with clear semantic meaning and shows superior performance compared to existing unsupervised reinforcement learning methods that only maximize state coverage.
- Abstract(参考訳): 教師なしスキル発見は、インテリジェントエージェントが自律的で報酬のない環境相互作用を通じて再利用可能なスキルを学習できることを約束する。
既存の教師なしスキル発見手法は、多様な状態をカバーする識別可能な振る舞いを奨励することでスキルを学ぶ。
しかし、多くの状態要因(例えば、多くのオブジェクトを持つ家庭環境)を持つ複雑な環境では、全ての可能な状態をカバーする学習スキルは不可能であり、国家の多様性を素直に奨励することは、下流タスクを解くのに理想的でない単純なスキルにつながることが多い。
この記事では、状態分解を自然な帰納バイアスとして活用して、スキル学習プロセスのガイドを行う、Skild(Skill Discovery from Local Dependencies)を紹介します。
Skildの鍵となる直観は、状態要因間の<b>異種インタラクション</b>を誘導するスキルが下流タスクの解決に有用であることがしばしばあることである。
この目的のために、Skildは、環境内の異なる相互作用を効果的に誘発するスキルの習得を明示的に促進する、新しいスキル学習目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインなど,複数の領域において,Skildが有意な意味を持つスキルの習得に成功し,状態カバレッジを最大化する既存の教師なし強化学習手法と比較して,優れたパフォーマンスを示した。
関連論文リスト
- Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。
LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。
本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文 参考訳(メタデータ) (2024-06-07T04:25:38Z) - SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。