論文の概要: The Option Keyboard: Combining Skills in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.13105v1
- Date: Thu, 24 Jun 2021 15:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:18:46.962811
- Title: The Option Keyboard: Combining Skills in Reinforcement Learning
- Title(参考訳): オプションキーボード:強化学習におけるスキルの組み合わせ
- Authors: Andr\'e Barreto, Diana Borsa, Shaobo Hou, Gheorghe Comanici, Eser
Ayg\"un, Philippe Hamel, Daniel Toyama, Jonathan Hunt, Shibl Mourad, David
Silver, Doina Precup
- Abstract要約: 本稿では,選択肢の形式化を利用したスキルの組み合わせフレームワークを提案する。
我々は、累積が既知の選択肢の累積の線形結合であるようなオプションを近似する。
これはつまり、一組の累積と関連するオプションを学習すれば、任意の線形結合によって誘導されるオプションを瞬時に合成できるということである。
- 参考スコア(独自算出の注目度): 47.83404797866695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to combine known skills to create new ones may be crucial in the
solution of complex reinforcement learning problems that unfold over extended
periods. We argue that a robust way of combining skills is to define and
manipulate them in the space of pseudo-rewards (or "cumulants"). Based on this
premise, we propose a framework for combining skills using the formalism of
options. We show that every deterministic option can be unambiguously
represented as a cumulant defined in an extended domain. Building on this
insight and on previous results on transfer learning, we show how to
approximate options whose cumulants are linear combinations of the cumulants of
known options. This means that, once we have learned options associated with a
set of cumulants, we can instantaneously synthesise options induced by any
linear combination of them, without any learning involved. We describe how this
framework provides a hierarchical interface to the environment whose abstract
actions correspond to combinations of basic skills. We demonstrate the
practical benefits of our approach in a resource management problem and a
navigation task involving a quadrupedal simulated robot.
- Abstract(参考訳): 既知のスキルを組み合わせて新しいスキルを作る能力は、長期にわたって広がる複雑な強化学習問題の解決に不可欠である。
スキルを組み合わせるための強固な方法は、疑似リワード(あるいは「累積」)の空間でそれらを定義して操作することである。
この前提に基づいて,選択肢の形式化を用いたスキル結合の枠組みを提案する。
任意の決定論的選択肢は拡張領域で定義された累積として曖昧に表現できることを示す。
この知見と、転送学習に関するこれまでの結果に基づいて、既知の選択肢の累積の線形結合である積の選択肢を近似する方法を示す。
つまり、一組の累積体に関連するオプションを学習すれば、学習にかかわることなく、任意の線形結合によって引き起こされるオプションを瞬時に合成できるということです。
本稿では,抽象的な動作が基本的スキルの組み合わせに対応する環境に階層的なインターフェースを提供する方法について述べる。
本研究では,資源管理問題と四足歩行型ロボットによるナビゲーション作業におけるアプローチの実践的メリットを実証する。
関連論文リスト
- Automated Feature Selection for Inverse Reinforcement Learning [7.278033100480175]
逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T10:05:21Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning [13.049516752695613]
本稿では,エージェントがその環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。
エージェントは論理的にも時間的にも柔軟に構成でき、任意の正規言語で時間論理の仕様を確実に達成することができる。
これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。
論文 参考訳(メタデータ) (2022-05-25T07:05:24Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Bayesian Nonparametrics for Offline Skill Discovery [19.28178596044852]
オフライン強化学習と模倣学習における最近の研究は、専門家の一連の軌道からの技術発見のためのいくつかの手法を提案している。
まず、変分推論と連続緩和の進歩を生かしたオプションのオフライン学習法を提案する。
我々は、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が最先端のオフラインスキル学習アルゴリズムより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-09T19:01:01Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。