論文の概要: Learning and Planning in Complex Action Spaces
- arxiv url: http://arxiv.org/abs/2104.06303v1
- Date: Tue, 13 Apr 2021 15:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:22:26.855691
- Title: Learning and Planning in Complex Action Spaces
- Title(参考訳): 複雑な行動空間における学習と計画
- Authors: Thomas Hubert and Julian Schrittwieser and Ioannis Antonoglou and
Mohammadamin Barekatain and Simon Schmitt and David Silver
- Abstract要約: 我々は,政策評価と改善を原則的に考える一般的な枠組みを提案する。
このサンプルベースのポリシー反復フレームワークは、原則として強化学習アルゴリズムに適用できる。
このアプローチをGoの古典的なボードゲームと2つの継続的制御ベンチマークドメインで実証する。
- 参考スコア(独自算出の注目度): 19.33000677254158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many important real-world problems have action spaces that are
high-dimensional, continuous or both, making full enumeration of all possible
actions infeasible. Instead, only small subsets of actions can be sampled for
the purpose of policy evaluation and improvement. In this paper, we propose a
general framework to reason in a principled way about policy evaluation and
improvement over such sampled action subsets. This sample-based policy
iteration framework can in principle be applied to any reinforcement learning
algorithm based upon policy iteration. Concretely, we propose Sampled MuZero,
an extension of the MuZero algorithm that is able to learn in domains with
arbitrarily complex action spaces by planning over sampled actions. We
demonstrate this approach on the classical board game of Go and on two
continuous control benchmark domains: DeepMind Control Suite and Real-World RL
Suite.
- Abstract(参考訳): 多くの重要な実世界の問題は、高次元、連続的、あるいは両方であるアクション空間を持ち、すべての可能なアクションの完全な列挙を可能にする。
代わりに、政策評価と改善のために、アクションの小さなサブセットのみをサンプリングできる。
本稿では,このようなアクションサブセットに対する政策評価と改善について,原則的に推論する一般的なフレームワークを提案する。
このサンプルベースのポリシーイテレーションフレームワークは、原則として、ポリシーイテレーションに基づいた強化学習アルゴリズムに適用することができる。
具体的には、サンプリングされたアクションを計画することで、任意の複雑なアクション空間を持つドメインで学習できるMuZeroアルゴリズムの拡張であるSampred MuZeroを提案する。
このアプローチは、Goの古典的なボードゲームと、DeepMind Control SuiteとReal-World RL Suiteの2つの連続制御ベンチマークドメインで実証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning Generalized Policies for Fully Observable Non-Deterministic Planning Domains [12.730070122798459]
一般的な政策は、計画問題の大規模なファミリーを解決するためのリアクティブ戦略を表す。
我々は、完全に観察可能な非決定論的領域を越えて、定式化と結果の一般的なポリシー学習方法を拡張する。
論文 参考訳(メタデータ) (2024-04-03T06:25:42Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm [48.60180355291149]
本稿では,多段階政策改善と政策評価を組み合わせた新しいオラクルアルゴリズムDoMo-VIを提案する。
次に,DoMo-VIアルゴリズムの現実的なインスタンス化である2段階のオフポリチック・アクター・クリティック(DoMo-AC)を提案する。
論文 参考訳(メタデータ) (2023-05-29T14:36:51Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - POLTER: Policy Trajectory Ensemble Regularization for Unsupervised
Reinforcement Learning [30.834631947104498]
本稿では,任意のURLアルゴリズムに適用可能な事前学習を正規化するためのPOLTERを提案する。
教師なし強化学習ベンチマーク(URLB)におけるPOLTERの評価を行った。
本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2022-05-23T14:42:38Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。