論文の概要: Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates
- arxiv url: http://arxiv.org/abs/2112.15025v1
- Date: Thu, 30 Dec 2021 12:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 15:05:29.785076
- Title: Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates
- Title(参考訳): 一般化ポリシー更新を用いた転校行動ベースの構築
- Authors: Safa Alver, Doina Precup
- Abstract要約: そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
- 参考スコア(独自算出の注目度): 63.58053355357644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning a good set of policies, so that when
combined together, they can solve a wide variety of unseen reinforcement
learning tasks with no or very little new data. Specifically, we consider the
framework of generalized policy evaluation and improvement, in which the
rewards for all tasks of interest are assumed to be expressible as a linear
combination of a fixed set of features. We show theoretically that, under
certain assumptions, having access to a specific set of diverse policies, which
we call a set of independent policies, can allow for instantaneously achieving
high-level performance on all possible downstream tasks which are typically
more complex than the ones on which the agent was trained. Based on this
theoretical analysis, we propose a simple algorithm that iteratively constructs
this set of policies. In addition to empirically validating our theoretical
results, we compare our approach with recently proposed diverse policy set
construction methods and show that, while others fail, our approach is able to
build a behavior basis that enables instantaneous transfer to all possible
downstream tasks. We also show empirically that having access to a set of
independent policies can better bootstrap the learning process on downstream
tasks where the new reward function cannot be described as a linear combination
of the features. Finally, we demonstrate that this policy set can be useful in
a realistic lifelong reinforcement learning setting.
- Abstract(参考訳): そこで我々は,良質な方針を学習する問題について検討し,これらを組み合わせることで,新たなデータ無しあるいは少なからぬデータで,未知の強化学習タスクを多種多様に解くことができる。
具体的には,すべての課題に対する報酬を固定された特徴の集合の線形結合として表現可能と仮定した,総合的な政策評価・改善の枠組みを検討する。
理論的には、特定の仮定の下では、独立ポリシーと呼ばれる特定の多様なポリシーにアクセスでき、エージェントが訓練されたものよりも一般的に複雑である全てのダウンストリームタスクにおいて、即座にハイレベルなパフォーマンスを達成できることを示す。
この理論解析に基づいて,この一連のポリシーを反復的に構築する単純なアルゴリズムを提案する。
理論的結果の実証的検証に加えて,最近提案された多種多様なポリシーセット構築手法との比較を行い,他の手法が失敗する一方で,本手法がダウンストリームタスクの即時移行を可能にする行動基盤を構築することができることを示す。
また,独立したポリシセットにアクセスすることで,新しい報酬関数を特徴の線形結合として記述できない下流タスクの学習プロセスをブートストラップできることを示す。
最後に、このポリシーセットは現実的な生涯強化学習環境において有用であることを示す。
関連論文リスト
- Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - SEERL: Sample Efficient Ensemble Reinforcement Learning [20.983016439055188]
モデルフリー強化アルゴリズムのための新しいトレーニングおよびモデル選択フレームワークを提案する。
適切な多彩なポリシーの集合を学習し、選択することが、適切なアンサンブルのために必要であることを示す。
Atari 2600 と Mujoco では,本フレームワークはサンプリング効率が高く,計算コストも高く,SOTA(State-of-the-art)スコアよりも優れていた。
論文 参考訳(メタデータ) (2020-01-15T10:12:00Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。