論文の概要: Policy-Space Search: Equivalences, Improvements, and Compression
- arxiv url: http://arxiv.org/abs/2403.19883v1
- Date: Thu, 28 Mar 2024 23:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:54:17.856852
- Title: Policy-Space Search: Equivalences, Improvements, and Compression
- Title(参考訳): Policy-Space Search: 等価性、改善、圧縮
- Authors: Frederico Messa, André Grahl Pereira,
- Abstract要約: 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。
A* with Non-Determinism (AND*)は、FOND計画のためにA*を一般化するFONDプランナーである。
- 参考スコア(独自算出の注目度): 5.801044612920816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully-observable non-deterministic (FOND) planning is at the core of artificial intelligence planning with uncertainty. It models uncertainty through actions with non-deterministic effects. A* with Non-Determinism (AND*) (Messa and Pereira, 2023) is a FOND planner that generalizes A* (Hart et al., 1968) for FOND planning. It searches for a solution policy by performing an explicit heuristic search on the policy space of the FOND task. In this paper, we study and improve the performance of the policy-space search performed by AND*. We present a polynomial-time procedure that constructs a solution policy given just the set of states that should be mapped. This procedure, together with a better understanding of the structure of FOND policies, allows us to present three concepts of equivalences between policies. We use policy equivalences to prune part of the policy search space, making AND* substantially more effective in solving FOND tasks. We also study the impact of taking into account structural state-space symmetries to strengthen the detection of equivalence policies and the impact of performing the search with satisficing techniques. We apply a recent technique from the group theory literature to better compute structural state-space symmetries. Finally, we present a solution compressor that, given a policy defined over complete states, finds a policy that unambiguously represents it using the minimum number of partial states. AND* with the introduced techniques generates, on average, two orders of magnitude fewer policies to solve FOND tasks. These techniques allow explicit policy-space search to be competitive in terms of both coverage and solution compactness with other state-of-the-art FOND planners.
- Abstract(参考訳): 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。
非決定論的効果の作用を通じて不確実性をモデル化する。
A* with Non-Determinism (AND*) (Messa and Pereira, 2023) は、FOND計画のために A* (Hart et al , 1968) を一般化した FOND プランナーである。
FONDタスクのポリシー空間を明示的にヒューリスティック検索することで、ソリューションポリシーを検索する。
本稿では,AND*によるポリシー空間探索の性能について検討し,その改善について述べる。
写像すべき状態の集合のみを与えられた解ポリシーを構成する多項式時間プロシージャを提案する。
この手順は、FONDポリシーの構造をよりよく理解すると共に、ポリシー間の等価性の3つの概念を提示することができる。
政策の等価性を利用して政策探索空間の一部を創り出し、AND* を FOND タスクの解法において実質的に効果的にする。
また、同値ポリシーの検出を強化するために、構造的状態空間対称性を考慮した場合の影響と、満足度の高い手法による探索を行う場合の影響についても検討する。
グループ理論の文献から最近の手法を応用して、構造的状態空間対称性をよりよく計算する。
最後に, 完全状態上で定義されたポリシが与えられた場合, 部分状態の最小値を用いて, 曖昧に表現したポリシを求める解圧縮器を提案する。
導入したテクニックによって、平均してFONDタスクを解決するための2桁のポリシーが生成される。
これらの技術により、明示的なポリシー空間探索は、他の最先端のFONDプランナーとカバレッジとソリューションのコンパクト性の両方の観点から競合することができる。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。
実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文 参考訳(メタデータ) (2022-09-16T03:41:50Z) - Reward-Free Policy Space Compression for Reinforcement Learning [39.04317877999891]
強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。
我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
論文 参考訳(メタデータ) (2022-02-22T18:11:57Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - Policy Manifold Search for Improving Diversity-based Neuroevolution [4.920145245773581]
ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。
当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。
我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
論文 参考訳(メタデータ) (2020-12-15T23:59:49Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。