論文の概要: Discovering a set of policies for the worst case reward
- arxiv url: http://arxiv.org/abs/2102.04323v1
- Date: Mon, 8 Feb 2021 16:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:06:37.021595
- Title: Discovering a set of policies for the worst case reward
- Title(参考訳): 最悪の場合の報酬のための一連のポリシーを発見する
- Authors: Tom Zahavy, Andre Barreto, Daniel J Mankowitz, Shaobo Hou, Brendan
O'Donoghue, Iurii Kemaev and Satinder Baveja Singh
- Abstract要約: 我々は、SIPs、set-max Policy(SMPs)の最も保守的なインスタンス化に焦点を当てる。
我々の主な貢献は、タスクセットにおける結果のSMPの最悪のパフォーマンスを最大化するためにポリシーセットを構築するポリシー反復アルゴリズムである。
結果,SMPの最悪の性能は各イテレーションで厳格に向上し,性能改善につながるポリシーが存在しない場合にのみアルゴリズムが停止することを示す。
- 参考スコア(独自算出の注目度): 15.682107694476779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of how to construct a set of policies that can be
composed together to solve a collection of reinforcement learning tasks. Each
task is a different reward function defined as a linear combination of known
features. We consider a specific class of policy compositions which we call set
improving policies (SIPs): given a set of policies and a set of tasks, a SIP is
any composition of the former whose performance is at least as good as that of
its constituents across all the tasks. We focus on the most conservative
instantiation of SIPs, set-max policies (SMPs), so our analysis extends to any
SIP. This includes known policy-composition operators like generalized policy
improvement. Our main contribution is a policy iteration algorithm that builds
a set of policies in order to maximize the worst-case performance of the
resulting SMP on the set of tasks. The algorithm works by successively adding
new policies to the set. We show that the worst-case performance of the
resulting SMP strictly improves at each iteration, and the algorithm only stops
when there does not exist a policy that leads to improved performance. We
empirically evaluate our algorithm on a grid world and also on a set of domains
from the DeepMind control suite. We confirm our theoretical results regarding
the monotonically improving performance of our algorithm. Interestingly, we
also show empirically that the sets of policies computed by the algorithm are
diverse, leading to different trajectories in the grid world and very distinct
locomotion skills in the control suite.
- Abstract(参考訳): 我々は、強化学習タスクの集合を解決するために一緒に構成できる一連のポリシーを構築する方法の問題を研究します。
各タスクは、既知の機能の線形結合として定義される異なる報酬関数である。
一組のポリシーと一組のタスクが与えられた場合、SIPは前者の任意の構成であり、その性能はすべてのタスクにまたがる構成員のそれと同程度である。
我々は,SIPs,set-max Policy (SMPs)の最も保守的なインスタンス化に注目し,分析を任意のSIPにまで拡張する。
これには、一般的な政策改善のような既知の政策構成演算子が含まれる。
我々の主な貢献は、タスクセットにおける結果のSMPの最悪のパフォーマンスを最大化するためにポリシーセットを構築するポリシー反復アルゴリズムである。
このアルゴリズムは、セットに新しいポリシーを順次追加することで動作する。
結果,SMPの最悪の性能は各イテレーションで厳格に向上し,性能改善につながるポリシーが存在しない場合にのみアルゴリズムが停止することを示す。
我々は、グリッドの世界およびdeepmindコントロールスイートの一連のドメイン上で、経験的にアルゴリズムを評価する。
我々は,アルゴリズムの単調な性能向上に関する理論的結果を確認する。
興味深いことに、アルゴリズムによって計算されるポリシーの集合は多様であり、グリッドの世界における異なる軌道と制御スイートにおける非常に異なる移動スキルに繋がる。
関連論文リスト
- Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。