論文の概要: Lifetime policy reuse and the importance of task capacity
- arxiv url: http://arxiv.org/abs/2106.01741v1
- Date: Thu, 3 Jun 2021 10:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:24:57.760900
- Title: Lifetime policy reuse and the importance of task capacity
- Title(参考訳): ライフタイム政策の再利用と課題能力の重要性
- Authors: David M. Bossens and Adam J. Sobey
- Abstract要約: マルチ政治強化学習技術は、多くのタスクを学習することができる。
一時的なポリシーや永続的なポリシーを多数生成でき、結果としてメモリの問題が発生する。
本稿では, ライフサイクルスケーラブル政策の再利用に向けた最初のアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing challenge in artificial intelligence is lifelong learning. In
lifelong learning, many tasks are presented in sequence and learners must
efficiently transfer knowledge between tasks while avoiding catastrophic
forgetting over long lifetimes. On these problems, policy reuse and other
multi-policy reinforcement learning techniques can learn many tasks. However,
they can generate many temporary or permanent policies, resulting in memory
issues. Consequently, there is a need for lifetime-scalable methods that
continually refine a policy library of a pre-defined size. This paper presents
a first approach to lifetime-scalable policy reuse. To pre-select the number of
policies, a notion of task capacity, the maximal number of tasks that a policy
can accurately solve, is proposed. To evaluate lifetime policy reuse using this
method, two state-of-the-art single-actor base-learners are compared: 1) a
value-based reinforcement learner, Deep Q-Network (DQN) or Deep Recurrent
Q-Network (DRQN); and 2) an actor-critic reinforcement learner, Proximal Policy
Optimisation (PPO) with or without Long Short-Term Memory layer. By selecting
the number of policies based on task capacity, D(R)QN achieves near-optimal
performance with 6 policies in a 27-task MDP domain and 9 policies in an
18-task POMDP domain; with fewer policies, catastrophic forgetting and negative
transfer are observed. Due to slow, monotonic improvement, PPO requires fewer
policies, 1 policy for the 27-task domain and 4 policies for the 18-task
domain, but it learns the tasks with lower accuracy than D(R)QN. These findings
validate lifetime-scalable policy reuse and suggest using D(R)QN for larger and
PPO for smaller library sizes.
- Abstract(参考訳): 人工知能における長年の課題は、生涯学習である。
生涯学習において、多くのタスクが順番に提示され、学習者は長い生涯にわたる破滅的な忘れ込みを避けながら、タスク間での知識の伝達を効率的に行う必要がある。
これらの問題に対して、政策再利用やその他の多目的強化学習技術は、多くのタスクを学習することができる。
しかし、多くの一時的なポリシーや永続的なポリシーを生成でき、結果としてメモリの問題が発生する。
したがって、事前に定義されたサイズのポリシーライブラリを継続的に洗練するライフスケーラブルな方法が必要である。
本稿では,生涯スケーラブルな政策再利用への最初のアプローチを提案する。
政策数を事前に選択するために,政策が正確に解決できるタスクの最大数,タスク能力の概念を提案する。
本手法を用いて寿命ポリシーの再利用を評価するため,1)価値ベースの強化学習者,ディープQネットワーク(DQN)またはディープQネットワーク(DRQN),2)アクタークリティカルな強化学習者,PPO(Porximal Policy Optimisation)を長期記憶層の有無で比較した。
D(R)QNはタスクキャパシティに基づいてポリシー数を選択することで、27タスクのMDPドメインで6つのポリシーと18タスクのPOMDPドメインで9つのポリシーでほぼ最適のパフォーマンスを達成する。
遅い単調な改善のため、PPOはより少ないポリシー、27タスクドメインの1ポリシー、18タスクドメインの4ポリシーを必要とするが、D(R)QNよりも低い精度でタスクを学習する。
以上の結果から, D(R)QN を大規模化, PPO を小型化に活用することが示唆された。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Lifelong Policy Gradient Learning of Factored Policies for Faster
Training Without Forgetting [26.13332231423652]
本稿では, 生涯関数近似器を直接, ポリシー勾配を用いて訓練する, 生涯ポリシー勾配学習のための新しい方法を提案する。
我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも高速に学習し,より良いポリシーに収束することを示す。
論文 参考訳(メタデータ) (2020-07-14T13:05:42Z) - Accelerating Safe Reinforcement Learning with Constraint-mismatched
Policies [34.555500347840805]
本稿では,ベースライン制御ポリシと学習者が満たさなければならない制約のセットを備える場合の強化学習の問題点について考察する。
本稿では,タスクに対する期待リターンの最大化,基本方針への距離の最小化,制約満足度セットへのポリシーの投影とを交互に行う反復的ポリシ最適化アルゴリズムを提案する。
我々のアルゴリズムは、最先端のベースラインを一貫して上回り、制約違反を10倍少なくし、平均で40%高い報酬を得る。
論文 参考訳(メタデータ) (2020-06-20T20:20:47Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。