論文の概要: Learning Generalized Policies for Fully Observable Non-Deterministic Planning Domains
- arxiv url: http://arxiv.org/abs/2404.02499v1
- Date: Wed, 3 Apr 2024 06:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:19:59.147635
- Title: Learning Generalized Policies for Fully Observable Non-Deterministic Planning Domains
- Title(参考訳): 完全に観測可能な非決定論的計画領域に対する一般政策の学習
- Authors: Till Hofmann, Hector Geffner,
- Abstract要約: 一般的な政策は、計画問題の大規模なファミリーを解決するためのリアクティブ戦略を表す。
我々は、完全に観察可能な非決定論的領域を越えて、定式化と結果の一般的なポリシー学習方法を拡張する。
- 参考スコア(独自算出の注目度): 12.730070122798459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General policies represent reactive strategies for solving large families of planning problems like the infinite collection of solvable instances from a given domain. Methods for learning such policies from a collection of small training instances have been developed successfully for classical domains. In this work, we extend the formulations and the resulting combinatorial methods for learning general policies over fully observable, non-deterministic (FOND) domains. We also evaluate the resulting approach experimentally over a number of benchmark domains in FOND planning, present the general policies that result in some of these domains, and prove their correctness. The method for learning general policies for FOND planning can actually be seen as an alternative FOND planning method that searches for solutions, not in the given state space but in an abstract space defined by features that must be learned as well.
- Abstract(参考訳): 一般的なポリシーは、あるドメインからの解決可能なインスタンスの無限のコレクションのような、計画問題の大規模なファミリーを解決するためのリアクティブ戦略を表す。
このような方針を学習する手法は、古典的なドメインでうまく開発されている。
本研究では、完全可観測非決定論的(FOND)領域上での一般政策学習のための定式化と結果の組合せ法を拡張する。
また、FOND計画における多くのベンチマークドメインに対して結果のアプローチを実験的に評価し、これらのドメインのいくつかに結果をもたらす一般的なポリシーを示し、それらの正しさを証明した。
FOND計画のための一般的なポリシーを学習する方法は、与えられた状態空間ではなく、同時に学習しなければならない特徴によって定義された抽象空間において、解を探索する代替FOND計画法として実際に見ることができる。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。
まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。
本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文 参考訳(メタデータ) (2022-11-30T03:44:44Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Learning and Planning in Complex Action Spaces [19.33000677254158]
我々は,政策評価と改善を原則的に考える一般的な枠組みを提案する。
このサンプルベースのポリシー反復フレームワークは、原則として強化学習アルゴリズムに適用できる。
このアプローチをGoの古典的なボードゲームと2つの継続的制御ベンチマークドメインで実証する。
論文 参考訳(メタデータ) (2021-04-13T15:48:48Z) - Learning General Policies from Small Examples Without Supervision [18.718037284357834]
一般化計画は、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものです。
近年、これらのポリシーは2つのステップで計算可能であることが示されている。まず、定性的数値計画問題(QNP)の形で適切な抽象化をサンプル計画から学習する。
本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T19:44:13Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。