論文の概要: Policy-Space Search: Equivalences, Improvements, and Compression
- arxiv url: http://arxiv.org/abs/2403.19883v1
- Date: Thu, 28 Mar 2024 23:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:54:17.856852
- Title: Policy-Space Search: Equivalences, Improvements, and Compression
- Title(参考訳): Policy-Space Search: 等価性、改善、圧縮
- Authors: Frederico Messa, André Grahl Pereira,
- Abstract要約: 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。
A* with Non-Determinism (AND*)は、FOND計画のためにA*を一般化するFONDプランナーである。
- 参考スコア(独自算出の注目度): 5.801044612920816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully-observable non-deterministic (FOND) planning is at the core of artificial intelligence planning with uncertainty. It models uncertainty through actions with non-deterministic effects. A* with Non-Determinism (AND*) (Messa and Pereira, 2023) is a FOND planner that generalizes A* (Hart et al., 1968) for FOND planning. It searches for a solution policy by performing an explicit heuristic search on the policy space of the FOND task. In this paper, we study and improve the performance of the policy-space search performed by AND*. We present a polynomial-time procedure that constructs a solution policy given just the set of states that should be mapped. This procedure, together with a better understanding of the structure of FOND policies, allows us to present three concepts of equivalences between policies. We use policy equivalences to prune part of the policy search space, making AND* substantially more effective in solving FOND tasks. We also study the impact of taking into account structural state-space symmetries to strengthen the detection of equivalence policies and the impact of performing the search with satisficing techniques. We apply a recent technique from the group theory literature to better compute structural state-space symmetries. Finally, we present a solution compressor that, given a policy defined over complete states, finds a policy that unambiguously represents it using the minimum number of partial states. AND* with the introduced techniques generates, on average, two orders of magnitude fewer policies to solve FOND tasks. These techniques allow explicit policy-space search to be competitive in terms of both coverage and solution compactness with other state-of-the-art FOND planners.
- Abstract(参考訳): 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。
非決定論的効果の作用を通じて不確実性をモデル化する。
A* with Non-Determinism (AND*) (Messa and Pereira, 2023) は、FOND計画のために A* (Hart et al , 1968) を一般化した FOND プランナーである。
FONDタスクのポリシー空間を明示的にヒューリスティック検索することで、ソリューションポリシーを検索する。
本稿では,AND*によるポリシー空間探索の性能について検討し,その改善について述べる。
写像すべき状態の集合のみを与えられた解ポリシーを構成する多項式時間プロシージャを提案する。
この手順は、FONDポリシーの構造をよりよく理解すると共に、ポリシー間の等価性の3つの概念を提示することができる。
政策の等価性を利用して政策探索空間の一部を創り出し、AND* を FOND タスクの解法において実質的に効果的にする。
また、同値ポリシーの検出を強化するために、構造的状態空間対称性を考慮した場合の影響と、満足度の高い手法による探索を行う場合の影響についても検討する。
グループ理論の文献から最近の手法を応用して、構造的状態空間対称性をよりよく計算する。
最後に, 完全状態上で定義されたポリシが与えられた場合, 部分状態の最小値を用いて, 曖昧に表現したポリシを求める解圧縮器を提案する。
導入したテクニックによって、平均してFONDタスクを解決するための2桁のポリシーが生成される。
これらの技術により、明示的なポリシー空間探索は、他の最先端のFONDプランナーとカバレッジとソリューションのコンパクト性の両方の観点から競合することができる。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。
実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文 参考訳(メタデータ) (2022-09-16T03:41:50Z) - Reward-Free Policy Space Compression for Reinforcement Learning [39.04317877999891]
強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。
我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
論文 参考訳(メタデータ) (2022-02-22T18:11:57Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - Policy Manifold Search for Improving Diversity-based Neuroevolution [4.920145245773581]
ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。
当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。
我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
論文 参考訳(メタデータ) (2020-12-15T23:59:49Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate [40.97686031763918]
報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学習できるように、エージェントが追求すべき本質的な目的は何ですか?
有限水平軌道によって誘導される状態分布のエントロピーは、合理的な対象である。
我々は,非パラメトリックな$k$-nearest隣人の状態分布エントロピー推定を最大化するポリシを学習するために,新しい,実用的なポリシ探索アルゴリズムである最大エントロピー・ポリシー最適化(MEPOL)を提案する。
論文 参考訳(メタデータ) (2020-07-09T08:44:39Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。