Fugu-MT 論文翻訳(概要): Policy-Space Search: Equivalences, Improvements, and Compression

論文の概要: Policy-Space Search: Equivalences, Improvements, and Compression

arxiv url: http://arxiv.org/abs/2403.19883v1
Date: Thu, 28 Mar 2024 23:40:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 16:54:17.856852
Title: Policy-Space Search: Equivalences, Improvements, and Compression
Title（参考訳）: Policy-Space Search: 等価性、改善、圧縮
Authors: Frederico Messa, André Grahl Pereira,
Abstract要約: 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。 A* with Non-Determinism (AND*)は、FOND計画のためにA*を一般化するFONDプランナーである。
参考スコア（独自算出の注目度）: 5.801044612920816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fully-observable non-deterministic (FOND) planning is at the core of artificial intelligence planning with uncertainty. It models uncertainty through actions with non-deterministic effects. A* with Non-Determinism (AND*) (Messa and Pereira, 2023) is a FOND planner that generalizes A* (Hart et al., 1968) for FOND planning. It searches for a solution policy by performing an explicit heuristic search on the policy space of the FOND task. In this paper, we study and improve the performance of the policy-space search performed by AND*. We present a polynomial-time procedure that constructs a solution policy given just the set of states that should be mapped. This procedure, together with a better understanding of the structure of FOND policies, allows us to present three concepts of equivalences between policies. We use policy equivalences to prune part of the policy search space, making AND* substantially more effective in solving FOND tasks. We also study the impact of taking into account structural state-space symmetries to strengthen the detection of equivalence policies and the impact of performing the search with satisficing techniques. We apply a recent technique from the group theory literature to better compute structural state-space symmetries. Finally, we present a solution compressor that, given a policy defined over complete states, finds a policy that unambiguously represents it using the minimum number of partial states. AND* with the introduced techniques generates, on average, two orders of magnitude fewer policies to solve FOND tasks. These techniques allow explicit policy-space search to be competitive in terms of both coverage and solution compactness with other state-of-the-art FOND planners.
Abstract（参考訳）: 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。非決定論的効果の作用を通じて不確実性をモデル化する。 A* with Non-Determinism (AND*) (Messa and Pereira, 2023) は、FOND計画のために A* (Hart et al , 1968) を一般化した FOND プランナーである。 FONDタスクのポリシー空間を明示的にヒューリスティック検索することで、ソリューションポリシーを検索する。本稿では,AND*によるポリシー空間探索の性能について検討し,その改善について述べる。写像すべき状態の集合のみを与えられた解ポリシーを構成する多項式時間プロシージャを提案する。この手順は、FONDポリシーの構造をよりよく理解すると共に、ポリシー間の等価性の3つの概念を提示することができる。政策の等価性を利用して政策探索空間の一部を創り出し、AND* を FOND タスクの解法において実質的に効果的にする。また、同値ポリシーの検出を強化するために、構造的状態空間対称性を考慮した場合の影響と、満足度の高い手法による探索を行う場合の影響についても検討する。グループ理論の文献から最近の手法を応用して、構造的状態空間対称性をよりよく計算する。最後に, 完全状態上で定義されたポリシが与えられた場合, 部分状態の最小値を用いて, 曖昧に表現したポリシを求める解圧縮器を提案する。導入したテクニックによって、平均してFONDタスクを解決するための2桁のポリシーが生成される。これらの技術により、明示的なポリシー空間探索は、他の最先端のFONDプランナーとカバレッジとソリューションのコンパクト性の両方の観点から競合することができる。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文参考訳（メタデータ） (2024-11-15T02:46:55Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文参考訳（メタデータ） (2023-02-28T11:58:39Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文参考訳（メタデータ） (2022-09-16T03:41:50Z)
Reward-Free Policy Space Compression for Reinforcement Learning [39.04317877999891]
強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
論文参考訳（メタデータ） (2022-02-22T18:11:57Z)
Policy Manifold Search: Exploring the Manifold Hypothesis for Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文参考訳（メタデータ） (2021-04-27T18:52:03Z)
Policy Manifold Search for Improving Diversity-based Neuroevolution [4.920145245773581]
ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
論文参考訳（メタデータ） (2020-12-15T23:59:49Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。