論文の概要: Lifetime policy reuse and the importance of task capacity
- arxiv url: http://arxiv.org/abs/2106.01741v3
- Date: Fri, 20 Oct 2023 14:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 16:01:12.131816
- Title: Lifetime policy reuse and the importance of task capacity
- Title(参考訳): ライフタイム政策の再利用と課題能力の重要性
- Authors: David M. Bossens and Adam J. Sobey
- Abstract要約: 政策再利用やその他の多目的強化学習技術は、複数のタスクを学習できるが、多くのポリシーを生成する可能性がある。
本稿では, ライフサイクルポリシー再利用アルゴリズムのライフサイクル・ポリシー・リユース(Lifetime Policy Reuse)について述べる。
その結果,最大125タスクのPacmanドメインとCartpoleドメインにおいて,ライフタイムポリシー再利用とタスクキャパシティに基づく事前選択の重要性が示された。
- 参考スコア(独自算出の注目度): 6.390849000337326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing challenge in artificial intelligence is lifelong
reinforcement learning, where learners are given many tasks in sequence and
must transfer knowledge between tasks while avoiding catastrophic forgetting.
Policy reuse and other multi-policy reinforcement learning techniques can learn
multiple tasks but may generate many policies. This paper presents two novel
contributions, namely 1) Lifetime Policy Reuse, a model-agnostic policy reuse
algorithm that avoids generating many policies by optimising a fixed number of
near-optimal policies through a combination of policy optimisation and adaptive
policy selection; and 2) the task capacity, a measure for the maximal number of
tasks that a policy can accurately solve. Comparing two state-of-the-art
base-learners, the results demonstrate the importance of Lifetime Policy Reuse
and task capacity based pre-selection on an 18-task partially observable Pacman
domain and a Cartpole domain of up to 125 tasks.
- Abstract(参考訳): 人工知能における長年の課題は、生涯にわたる強化学習であり、学習者は一連のタスクを与えられたり、破滅的な忘れるのを避けながらタスク間で知識を移さなければならない。
政策再利用やその他の多目的強化学習技術は、複数のタスクを学習できるが、多くのポリシーを生成する可能性がある。
本稿では,2つの新しい貢献,すなわち
1)政策の最適化と適応的政策選択の組み合わせにより、一定の数に近い政策を最適化することにより、多くのポリシーの発生を回避できるモデル非依存のポリシー再利用アルゴリズムである。
2)タスク能力とは,政策が正確に解決できるタスクの最大数を示す尺度である。
その結果,18タスクの部分観測可能なpacmanドメインと最大125タスクのcartopoleドメインにおいて,ライフタイムポリシの再利用とタスクキャパシティに基づく事前選択の重要性が示された。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Lifelong Policy Gradient Learning of Factored Policies for Faster
Training Without Forgetting [26.13332231423652]
本稿では, 生涯関数近似器を直接, ポリシー勾配を用いて訓練する, 生涯ポリシー勾配学習のための新しい方法を提案する。
我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも高速に学習し,より良いポリシーに収束することを示す。
論文 参考訳(メタデータ) (2020-07-14T13:05:42Z) - Accelerating Safe Reinforcement Learning with Constraint-mismatched
Policies [34.555500347840805]
本稿では,ベースライン制御ポリシと学習者が満たさなければならない制約のセットを備える場合の強化学習の問題点について考察する。
本稿では,タスクに対する期待リターンの最大化,基本方針への距離の最小化,制約満足度セットへのポリシーの投影とを交互に行う反復的ポリシ最適化アルゴリズムを提案する。
我々のアルゴリズムは、最先端のベースラインを一貫して上回り、制約違反を10倍少なくし、平均で40%高い報酬を得る。
論文 参考訳(メタデータ) (2020-06-20T20:20:47Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。