論文の概要: Relative Variational Intrinsic Control
- arxiv url: http://arxiv.org/abs/2012.07827v1
- Date: Mon, 14 Dec 2020 18:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:42:28.183685
- Title: Relative Variational Intrinsic Control
- Title(参考訳): 相対変動型内在制御
- Authors: Kate Baumli, David Warde-Farley, Steven Hansen, Volodymyr Mnih
- Abstract要約: Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
- 参考スコア(独自算出の注目度): 11.328970848714919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the absence of external rewards, agents can still learn useful behaviors
by identifying and mastering a set of diverse skills within their environment.
Existing skill learning methods use mutual information objectives to
incentivize each skill to be diverse and distinguishable from the rest.
However, if care is not taken to constrain the ways in which the skills are
diverse, trivially diverse skill sets can arise. To ensure useful skill
diversity, we propose a novel skill learning objective, Relative Variational
Intrinsic Control (RVIC), which incentivizes learning skills that are
distinguishable in how they change the agent's relationship to its environment.
The resulting set of skills tiles the space of affordances available to the
agent. We qualitatively analyze skill behaviors on multiple environments and
show how RVIC skills are more useful than skills discovered by existing methods
when used in hierarchical reinforcement learning.
- Abstract(参考訳): 外部の報酬がなければ、エージェントは環境内の様々なスキルを識別し、習得することで、有用な行動を学ぶことができる。
既存のスキル学習方法は、相互情報目的を用いて、各スキルが他と多様で区別可能なものにインセンティブを与える。
しかし、スキルの多様性を制約するために注意を払わなければ、自明に多様なスキルセットが発生する可能性がある。
有効なスキルの多様性を確保するために,エージェントと環境との関係をいかに変化させるかを識別可能な学習スキルを動機付ける,新たなスキル学習目標であるRVIC(Relative Variational Intrinsic Control)を提案する。
結果として得られるスキルのセットは、エージェントが利用できる余裕の空間をタイル化する。
我々は,複数の環境におけるスキルの振る舞いを質的に分析し,階層的強化学習に使用する場合の既存の手法によるスキルよりもRVICスキルが有用であることを示す。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。
LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。
本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文 参考訳(メタデータ) (2024-06-07T04:25:38Z) - C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controlled Diversity with Preference : Towards Learning a Diverse Set of
Desired Skills [15.187171070594935]
エージェントが多様かつ望ましいスキルのセットを学ぶための協調的なヒューマンガイド機構である制御された多様性と優先度(CDP)を提案する。
鍵となる原則は、軌道上の人間の嗜好ラベルを用いて訓練された嗜好モデルに従って、好まれる領域にスキルの発見を制限することである。
2次元ナビゲーションとMujoco環境に対する我々のアプローチを評価し、多様な、しかし望ましいスキルを発見できることを実証した。
論文 参考訳(メタデータ) (2023-03-07T03:37:47Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。