論文の概要: Expressing and Exploiting the Common Subgoal Structure of Classical
Planning Domains Using Sketches: Extended Version
- arxiv url: http://arxiv.org/abs/2105.04250v1
- Date: Mon, 10 May 2021 10:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:00:02.731190
- Title: Expressing and Exploiting the Common Subgoal Structure of Classical
Planning Domains Using Sketches: Extended Version
- Title(参考訳): スケッチを用いた古典的計画領域の共通部分構造表現と展開:拡張版
- Authors: Dominik Drexler and Jendrik Seipp and Hector Geffner
- Abstract要約: 我々は、Bornt と Geffner が最近導入したポリシースケッチと呼ばれる問題分解を表現するために、単純だが強力な言語を使用します。
ポリシースケッチRは、Booleanと数値的特徴のセットと、これらの特徴の値がどのように変化するかを表現するスケッチルールのセットで構成される。
本稿では,SIW_Rアルゴリズムを用いて,SIWで解けない多くの計画領域を短時間で解けることを示す。
- 参考スコア(独自算出の注目度): 17.63517562327928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Width-based planning methods exploit the use of conjunctive goals for
decomposing problems into subproblems of low width. However, algorithms like
SIW fail when the goal is not serializable. In this work, we address this
limitation of SIW by using a simple but powerful language for expressing
problem decompositions introduced recently by Bonet and Geffner, called policy
sketches. A policy sketch R consists of a set of Boolean and numerical features
and a set of sketch rules that express how the values of these features are
supposed to change. Like general policies, policy sketches are domain general,
but unlike policies, the changes captured by sketch rules do not need to be
achieved in a single step. We show that many planning domains that cannot be
solved by SIW are provably solvable in low polynomial time with the SIW_R
algorithm, the version of SIW that employs user-provided policy sketches.
Policy sketches are thus shown to be a powerful language for expressing
domain-specific knowledge in a simple and compact way and a convenient
alternative to languages such as HTNs or temporal logics. Furthermore, policy
sketches make it easy to express general problem decompositions and prove key
properties like their complexity and width.
- Abstract(参考訳): 幅ベースの計画手法では、結合目標を用いて問題を低幅の下位問題に分解する。
しかし、SIWのようなアルゴリズムは、ゴールがシリアライズできないときに失敗する。
本稿では,boint と geffner が最近導入した問題分解を表現するための単純かつ強力な言語である policy sketches を用いて,siw のこの制限に対処する。
ポリシースケッチRは、Booleanと数値的特徴のセットと、これらの特徴の値がどのように変化するかを表現するスケッチルールのセットで構成される。
一般的なポリシーと同様に、ポリシースケッチはドメイン一般であるが、ポリシーとは異なり、スケッチルールによって取得された変更は単一のステップで達成される必要はない。
siwによって解決できない多くの計画領域は、ユーザが提供するポリシースケッチを用いたsiw_rアルゴリズムによって、低多項式時間で証明可能であることが示されている。
したがって、ポリシースケッチはドメイン固有の知識をシンプルでコンパクトな方法で表現するための強力な言語であり、htnや時相論理のような言語に対する便利な代替手段であることが示されています。
さらに、ポリシースケッチにより、一般的な問題分解の表現や、複雑さや幅といった重要な特性の証明が容易になる。
関連論文リスト
- General Policies, Subgoal Structure, and Planning Width [19.373790756767278]
原子目標を持つプランニングドメインは、IWと呼ばれる単純な探索手順によって、問題幅で指数関数的に実行される。
しかし、原子目標を考慮した場合、多くのベンチマークドメインが境界幅を持つ理由については、よく説明されていない。
論文 参考訳(メタデータ) (2023-11-09T16:30:22Z) - Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results? [66.52698983694613]
本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。
本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。
より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
論文 参考訳(メタデータ) (2023-07-29T00:51:26Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Preliminary Results on Using Abstract AND-OR Graphs for Generalized
Solving of Stochastic Shortest Path Problems [25.152899734616298]
最短経路問題(SSP)は、現実世界におけるゴール指向の問題である。
SSPの計算における重要な課題は、適度な大きさの問題を難解に解決する方法を見つけることである。
提案手法は任意のSSPソルバに組み込んで階層的最適ポリシーを計算可能であることを示す。
論文 参考訳(メタデータ) (2022-04-08T21:30:47Z) - Learning Sketches for Decomposing Planning Problems into Subproblems of
Bounded Width: Extended Version [18.95007906887466]
スケッチは、同じドメインから引き出されたインスタンスのサブゴール構造を表す一般的な言語として導入された。
本稿では,計画領域,対象とする問題のいくつか,スケッチ幅の所望値などを自動的に与えられたスケッチを学習する問題を提示する。
スケッチ学習者およびSIW_Rプランナーは、明快で明示的な形式でドメイン構造を学習し、活用するドメイン非依存プランナーを生成する。
論文 参考訳(メタデータ) (2022-03-28T15:49:08Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Learning General Policies from Small Examples Without Supervision [18.718037284357834]
一般化計画は、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものです。
近年、これらのポリシーは2つのステップで計算可能であることが示されている。まず、定性的数値計画問題(QNP)の形で適切な抽象化をサンプル計画から学習する。
本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T19:44:13Z) - General Policies, Serializations, and Planning Width [22.112881443209726]
有界幅は、ドメインエンコーディングにおいて明示的あるいは暗黙的に表現される特徴の観点から、最適の一般ポリシーを許容する計画領域の特性であることを示す。
この研究はまた、ポリシースケッチの形でドメインのシリアライズを指定するための新しいシンプルで有意義で表現力のある言語にもつながります。
論文 参考訳(メタデータ) (2020-12-15T01:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。