論文の概要: Learning Reusable Options for Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.01577v1
- Date: Mon, 6 Jan 2020 13:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 02:27:04.995866
- Title: Learning Reusable Options for Multi-Task Reinforcement Learning
- Title(参考訳): マルチタスク強化学習のための再利用可能な学習オプション
- Authors: Francisco M. Garcia, Chris Nota, Philip S. Thomas
- Abstract要約: 再利用可能な選択肢を学習することで、既存の体験を活用するためのフレームワークを提案する。
エージェントが少数の問題を解決するためのポリシーを学習した後、これらのポリシーから生成されたトラジェクトリを使って再利用可能な選択肢を学習できることを示す。
- 参考スコア(独自算出の注目度): 27.864350957396322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become an increasingly active area of
research in recent years. Although there are many algorithms that allow an
agent to solve tasks efficiently, they often ignore the possibility that prior
experience related to the task at hand might be available. For many practical
applications, it might be unfeasible for an agent to learn how to solve a task
from scratch, given that it is generally a computationally expensive process;
however, prior experience could be leveraged to make these problems tractable
in practice. In this paper, we propose a framework for exploiting existing
experience by learning reusable options. We show that after an agent learns
policies for solving a small number of problems, we are able to use the
trajectories generated from those policies to learn reusable options that allow
an agent to quickly learn how to solve novel and related problems.
- Abstract(参考訳): 近年,強化学習(RL)は研究の活発な領域となっている。
エージェントが効率的にタスクを解くことができるアルゴリズムは数多く存在するが、手元にあるタスクに関連する事前の経験が利用できる可能性を無視していることが多い。
多くの実践的応用において、一般に計算コストの高いプロセスであるため、エージェントがスクラッチからタスクの解法を学ぶことは不可能であるかもしれない。
本稿では,再利用可能な選択肢を学習することで既存の経験を活用できるフレームワークを提案する。
エージェントが少数の問題を解決するためのポリシーを学習した後、これらのポリシーから生成された軌道を使って再利用可能なオプションを学習し、エージェントが新しく関連する問題を解決する方法をすばやく学習できることを示す。
関連論文リスト
- Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-03T08:15:41Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。