論文の概要: Sequential Transfer in Reinforcement Learning with a Generative Model
- arxiv url: http://arxiv.org/abs/2007.00722v1
- Date: Wed, 1 Jul 2020 19:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:18:10.617047
- Title: Sequential Transfer in Reinforcement Learning with a Generative Model
- Title(参考訳): 生成モデルを用いた強化学習における逐次伝達
- Authors: Andrea Tirinzoni, Riccardo Poiani, Marcello Restelli
- Abstract要約: 本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
- 参考スコア(独自算出の注目度): 48.40219742217783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in how to design reinforcement learning agents that
provably reduce the sample complexity for learning new tasks by transferring
knowledge from previously-solved ones. The availability of solutions to related
problems poses a fundamental trade-off: whether to seek policies that are
expected to achieve high (yet sub-optimal) performance in the new task
immediately or whether to seek information to quickly identify an optimal
solution, potentially at the cost of poor initial behavior. In this work, we
focus on the second objective when the agent has access to a generative model
of state-action pairs. First, given a set of solved tasks containing an
approximation of the target one, we design an algorithm that quickly identifies
an accurate solution by seeking the state-action pairs that are most
informative for this purpose. We derive PAC bounds on its sample complexity
which clearly demonstrate the benefits of using this kind of prior knowledge.
Then, we show how to learn these approximate tasks sequentially by reducing our
transfer setting to a hidden Markov model and employing spectral methods to
recover its parameters. Finally, we empirically verify our theoretical findings
in simple simulated domains.
- Abstract(参考訳): 我々は,従来の課題から知識を移譲することで,新たな課題を学習するためのサンプルの複雑さを確実に低減する強化学習エージェントの設計に興味を持っている。
関連する問題に対するソリューションの可用性は基本的なトレードオフとなり、新しいタスクで高い(最適でない)パフォーマンスを達成すると期待されるポリシーを探すか、あるいは最適なソリューションを迅速に特定するための情報を求めるか、潜在的に初期動作の悪いコストで。
本研究では,エージェントが状態-作用ペアの生成モデルにアクセスできる場合の2番目の目的に焦点を当てる。
まず、対象の近似を含む一組の問題解決タスクを考慮し、この目的に最も有益である状態-作用対を求めることにより、正確な解を迅速に特定するアルゴリズムを設計する。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
次に,隠れマルコフモデルに転送設定を縮小し,スペクトル法を用いてパラメータを復元することにより,これらの近似タスクを逐次学習する方法を示す。
最後に,単純なシミュレート領域において,理論的な知見を実証的に検証する。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration [17.27164535440641]
後方サンプリングは有望なアプローチであるが、ベイズ推論と動的プログラミングが必要である。
部分モデルが環境から関連する情報を除外したとしても、良い政策につながることは明らかである。
論文 参考訳(メタデータ) (2023-02-08T18:35:24Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Submodular Meta-Learning [43.15332631500541]
将来的なタスクのパフォーマンス向上のために,メタラーニングフレームワークの個別版を導入する。
我々のアプローチは、事前データ、すなわち、以前に訪れたタスクを使用して、適切な初期ソリューションセットをトレーニングすることを目的としている。
我々のフレームワークは、性能損失を小さく抑えながら、新しいタスクを解く際に、計算の複雑さを著しく低減させることを示した。
論文 参考訳(メタデータ) (2020-07-11T21:02:48Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。