論文の概要: Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer
- arxiv url: http://arxiv.org/abs/2206.11326v1
- Date: Wed, 22 Jun 2022 19:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 12:40:05.786193
- Title: Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer
- Title(参考訳): 最適政策伝達の基盤としての最適線形サポートと継承機能
- Authors: Lucas N. Alegre and Ana L. C. Bazzan and Bruno C. da Silva
- Abstract要約: 我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
- 参考スコア(独自算出の注目度): 7.970144204429356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world applications, reinforcement learning (RL) agents might
have to solve multiple tasks, each one typically modeled via a reward function.
If reward functions are expressed linearly, and the agent has previously
learned a set of policies for different tasks, successor features (SFs) can be
exploited to combine such policies and identify reasonable solutions for new
problems. However, the identified solutions are not guaranteed to be optimal.
We introduce a novel algorithm that addresses this limitation. It allows RL
agents to combine existing policies and directly identify optimal policies for
arbitrary new problems, without requiring any further interactions with the
environment. We first show (under mild assumptions) that the transfer learning
problem tackled by SFs is equivalent to the problem of learning to optimize
multiple objectives in RL. We then introduce an SF-based extension of the
Optimistic Linear Support algorithm to learn a set of policies whose SFs form a
convex coverage set. We prove that policies in this set can be combined via
generalized policy improvement to construct optimal behaviors for any new
linearly-expressible tasks, without requiring any additional training samples.
We empirically show that our method outperforms state-of-the-art competing
algorithms both in discrete and continuous domains under value function
approximation.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、強化学習(RL)エージェントは複数のタスクを解く必要があり、それぞれが報酬関数によってモデル化される。
報酬関数が線形に表現され、エージェントが以前、異なるタスクに対する一連のポリシーを学んだ場合、後継機能(SF)を利用してこれらのポリシーを組み合わせて、新しい問題に対する合理的な解決策を特定することができる。
しかし、同定された解が最適であるとは保証されていない。
この制限に対処する新しいアルゴリズムを導入する。
RLエージェントは既存のポリシーを組み合わせることができ、環境とのさらなる相互作用を必要とせず、任意の新しい問題に対して最適なポリシーを直接識別することができる。
まず、SFが取り組んだ伝達学習問題は、RLにおける複数の目的を最適化する学習問題と等価であることを示す。
次に、最適化線形サポートアルゴリズムのSFベースの拡張を導入し、SFが凸カバレッジセットを形成するポリシーの集合を学習する。
この集合のポリシは、一般化されたポリシー改善によって、追加のトレーニングサンプルを必要とせずに、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを証明します。
提案手法は,値関数近似の下での離散領域と連続領域の両方において,最先端の競合アルゴリズムよりも優れていることを示す。
関連論文リスト
- Planning with a Learned Policy Basis to Optimally Solve Complex Tasks [26.621462241759133]
本稿では,後継機能を用いて政策ベースを学習し,その中の各(サブ)政治が明確に定義されたサブプロブレムを解決することを提案する。
同じサブプロブレムの集合を含む有限状態オートマトン(FSA)によって記述されるタスクでは、これらの(サブ)ポリケーションの組み合わせを使用して、追加の学習なしに最適な解を生成することができる。
論文 参考訳(メタデータ) (2024-03-22T15:51:39Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。