論文の概要: Hierarchical reinforcement learning for efficient exploration and
transfer
- arxiv url: http://arxiv.org/abs/2011.06335v1
- Date: Thu, 12 Nov 2020 12:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:31:52.025514
- Title: Hierarchical reinforcement learning for efficient exploration and
transfer
- Title(参考訳): 効率的な探索・伝達のための階層的強化学習
- Authors: Lorenzo Steccanella, Simone Totaro, Damien Allonsius, Anders Jonsson
- Abstract要約: 不変状態空間の圧縮に基づく新しい階層型強化学習フレームワークを提案する。
その結果, 複雑なスパース・リワード領域を解き, 知識を伝達することで, 未確認タスクをより迅速に解けることが示唆された。
- 参考スコア(独自算出の注目度): 7.70406430636194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sparse-reward domains are challenging for reinforcement learning algorithms
since significant exploration is needed before encountering reward for the
first time. Hierarchical reinforcement learning can facilitate exploration by
reducing the number of decisions necessary before obtaining a reward. In this
paper, we present a novel hierarchical reinforcement learning framework based
on the compression of an invariant state space that is common to a range of
tasks. The algorithm introduces subtasks which consist of moving between the
state partitions induced by the compression. Results indicate that the
algorithm can successfully solve complex sparse-reward domains, and transfer
knowledge to solve new, previously unseen tasks more quickly.
- Abstract(参考訳): スパースワードドメインは、初めて報酬に遭遇する前にかなりの探索が必要であるため、強化学習アルゴリズムにとって困難である。
階層的な強化学習は、報酬を得る前に必要な決定数を減らし、探索を容易にする。
本稿では,多様なタスクに共通する不変状態空間の圧縮に基づく,新しい階層型強化学習フレームワークを提案する。
このアルゴリズムは圧縮によって誘導される状態分割の間を移動するサブタスクを導入する。
その結果, 複雑なスパース・リワード領域を解き, 知識を伝達することで, 未確認タスクをより迅速に解けることがわかった。
関連論文リスト
- Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - Reward-Predictive Clustering [20.82575016038573]
ディープラーニング設定への報酬予測状態抽象化の適用を可能にするクラスタリングアルゴリズムを提供する。
収束定理とシミュレーションは、結果として生じる報酬予測深いネットワークがエージェントの入力を最大に圧縮することを示している。
論文 参考訳(メタデータ) (2022-11-07T03:13:26Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - HAC Explore: Accelerating Exploration with Hierarchical Reinforcement
Learning [8.889563735540696]
HAC Explore (HACx) は、ランダムネットワーク蒸留法(RND)を階層的アプローチである階層的アクター・クリティカル法(HAC)に組み合わせた新しい手法である。
HACxは1000以上のアクションを必要とするスパース報酬の連続制御タスクを解決する最初のRL手法である。
論文 参考訳(メタデータ) (2021-08-12T17:42:12Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - SPACE: Structured Compression and Sharing of Representational Space for
Continual Learning [10.06017287116299]
漸進的に学習するタスクは、ニューラルネットワークが古いタスクについて学んだ関連情報を上書きし、結果として「破滅的な予測」をもたらす
本研究では,学習した空間をコア空間に分割することで,ネットワークが継続的に効率的に学習できるSPACEを提案する。
我々は,P-MNIST,CIFAR,および8つの異なるデータセットの列に対するアルゴリズムの評価を行い,最先端の手法に匹敵する精度を実現する。
論文 参考訳(メタデータ) (2020-01-23T16:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。