論文の概要: Bayesian Nonparametrics for Offline Skill Discovery
- arxiv url: http://arxiv.org/abs/2202.04675v1
- Date: Wed, 9 Feb 2022 19:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-12 10:16:34.045450
- Title: Bayesian Nonparametrics for Offline Skill Discovery
- Title(参考訳): オフラインスキル発見のためのベイズ非パラメトリック
- Authors: Valentin Villecroze, Harry J. Braviner, Panteha Naderian, Chris J.
Maddison, Gabriel Loaiza-Ganem
- Abstract要約: オフライン強化学習と模倣学習における最近の研究は、専門家の一連の軌道からの技術発見のためのいくつかの手法を提案している。
まず、変分推論と連続緩和の進歩を生かしたオプションのオフライン学習法を提案する。
我々は、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が最先端のオフラインスキル学習アルゴリズムより優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 19.28178596044852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skills or low-level policies in reinforcement learning are temporally
extended actions that can speed up learning and enable complex behaviours.
Recent work in offline reinforcement learning and imitation learning has
proposed several techniques for skill discovery from a set of expert
trajectories. While these methods are promising, the number K of skills to
discover is always a fixed hyperparameter, which requires either prior
knowledge about the environment or an additional parameter search to tune it.
We first propose a method for offline learning of options (a particular skill
framework) exploiting advances in variational inference and continuous
relaxations. We then highlight an unexplored connection between Bayesian
nonparametrics and offline skill discovery, and show how to obtain a
nonparametric version of our model. This version is tractable thanks to a
carefully structured approximate posterior with a dynamically-changing number
of options, removing the need to specify K. We also show how our nonparametric
extension can be applied in other skill frameworks, and empirically demonstrate
that our method can outperform state-of-the-art offline skill learning
algorithms across a variety of environments. Our code is available at
https://github.com/layer6ai-labs/BNPO .
- Abstract(参考訳): 強化学習におけるスキルまたは低レベルポリシーは、学習をスピードアップし複雑な振る舞いを可能にする時間的に拡張された行動である。
オフライン強化学習と模倣学習における最近の研究は、一連の専門家の軌道からスキル発見のためのいくつかの手法を提案している。
これらの手法は有望であるが、発見するスキルのkは、常に固定ハイパーパラメータであり、環境に関する事前の知識を必要とするか、それを調整するために追加のパラメータ検索が必要である。
まず,変動推論と連続緩和の進歩を活用した,オフラインオプション学習手法(特定のスキルフレームワーク)を提案する。
次に、ベイズ非パラメトリックスとオフラインスキル発見の間の未検討の接続を強調し、モデルの非パラメトリックバージョンを取得する方法を示す。
このバージョンは、動的に変化するオプション数を持つ注意深く構造化された後付けによって扱いやすくなり、kを指定する必要がなくなります。また、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が様々な環境にわたって最先端のオフラインスキル学習アルゴリズムを上回ることができることを実証的に示します。
私たちのコードはhttps://github.com/layer6ai-labs/BNPO で利用可能です。
関連論文リスト
- Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - DLCFT: Deep Linear Continual Fine-Tuning for General Incremental
Learning [29.80680408934347]
事前学習した表現からモデルを連続的に微調整するインクリメンタルラーニングのための代替フレームワークを提案する。
本手法は, ニューラルネットワークの線形化手法を利用して, 単純かつ効果的な連続学習を行う。
本手法は,データ増分,タスク増分およびクラス増分学習問題において,一般的な連続学習設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-17T06:58:14Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。