論文の概要、ライセンス

# (参考訳) GNNを用いたスーパービジョンのない一般政策の学習 [全文訳有]

Learning Generalized Policies Without Supervision Using GNNs ( http://arxiv.org/abs/2205.06002v1 )

ライセンス: CC BY 4.0
Simon St{\aa}hlberg, Blai Bonet, Hector Geffner(参考訳) 本稿では,グラフニューラルネットワークを用いた古典的計画領域の一般化ポリシーの学習問題について考察する。 この問題は以前検討されてきたが、提案されたニューラルアーキテクチャは複雑であり、しばしば混合される。 本研究では、GNNアーキテクチャを用いて、学習値関数におけるポリシー欲求が、トレーニングで使用されるものよりも大きめのインスタンスに対して100%近い一般化を達成するか、あるいは、失敗を理解できなければならず、場合によっては論理的に固定されなければならないか、という、鮮明な実験結果と深い理解を目指している。 このために、gnnの表現力と一階述語論理の$c_{2}$フラグメント(つまり2変数のfolと数量化器)の関係性を利用する。 例えば、より表現力のある機能を必要とする一般的なポリシーを持つドメインは、ロール組成と$c_{2}$に適合しない推移的クロージャを符号化する適切な"派生原子"で拡張されると、gnnで解決できる。 この研究は、監督的な方法で最適な一般政策を学ぶためのGNNアプローチ(Stahlberg, Bonet, Geffner, 2022)に従っているが、学習されたポリシーはもはや最適である必要はなく(多くの計画領域が一般的な最適政策を持っていないため、範囲を広げる)、監督なしで学習される。 興味深いことに、最適な政策を生み出すことを目的とした価値ベースの強化学習手法は、最適性と一般化の目標がnpハードな領域で相反するので、必ずしも一般化する政策をもたらすとは限らない。

We consider the problem of learning generalized policies for classical planning domains using graph neural networks from small instances represented in lifted STRIPS. The problem has been considered before but the proposed neural architectures are complex and the results are often mixed. In this work, we use a simple and general GNN architecture and aim at obtaining crisp experimental results and a deeper understanding: either the policy greedy in the learned value function achieves close to 100% generalization over instances larger than those used in training, or the failure must be understood, and possibly fixed, logically. For this, we exploit the relation established between the expressive power of GNNs and the $C_{2}$ fragment of first-order logic (namely, FOL with 2 variables and counting quantifiers). We find for example that domains with general policies that require more expressive features can be solved with GNNs once the states are extended with suitable "derived atoms" encoding role compositions and transitive closures that do not fit into $C_{2}$. The work follows the GNN approach for learning optimal general policies in a supervised fashion (Stahlberg, Bonet, Geffner, 2022); but the learned policies are no longer required to be optimal (which expands the scope, as many planning domains do not have general optimal policies) and are learned without supervision. Interestingly, value-based reinforcement learning methods that aim to produce optimal policies, do not always yield policies that generalize, as the goals of optimality and generality are in conflict in domains where optimal planning is NP-hard.
公開日: Thu, 12 May 2022 10:28:46 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Learning Generalized Policies Without Supervision Using GNNs GNNを用いたスーパービジョンのない一般政策の学習 0.60
Simon St˚ahlberg1 , Blai Bonet2 , Hector Geffner3,2,1 シモン・シュヴァールベルク1,ブレイ・ボーント2,ヘクター・ゲフナー3,2,1 0.47
3Instituci´o Catalana de Recerca i Estudis Avanc¸ats (ICREA), Barcelona, Spain 3Instituci ́o Catalana de Recerca i Estudis Avanc sats (ICREA) - スペイン・バルセロナ。 0.74
1Link¨oping University, Sweden 2Universitat Pompeu Fabra, Spain 1Linkオープニング大学 スウェーデン2大学ポンペウ・ファブラ(スペイン語) 0.71
simon.stahlberg@liu. se, bonetblai@gmail.com, hector.geffner@upf.e du simon.stahlberg@liu. se, bonetblai@gmail.com, hector.geffner@upf.e du 0.32
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] I A . s c [ 【私】 A! sc [ 0.50
1 v 2 0 0 6 0 1 v 2 0 0 6 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract We consider the problem of learning generalized policies for classical planning domains using graph neural networks from small instances represented in lifted STRIPS. 概要 本稿では,グラフニューラルネットワークを用いた古典的計画領域の一般化ポリシーの学習問題について考察する。 0.57
The problem has been considered before but the proposed neural architectures are complex and the results are often mixed. この問題は以前検討されてきたが、提案されたニューラルアーキテクチャは複雑であり、しばしば混合される。
訳抜け防止モード: その問題は以前検討された 提案された神経アーキテクチャは複雑で 結果はしばしば混ざっています
0.84
In this work, we use a simple and general GNN architecture and aim at obtaining crisp experimental results and a deeper understanding: either the policy greedy in the learned value function achieves close to 100% generalization over instances larger than those used in training, or the failure must be understood, and possibly fixed, logically. 本研究では、GNNアーキテクチャを用いて、学習値関数におけるポリシー欲求が、トレーニングで使用されるものよりも大きめのインスタンスに対して100%近い一般化を達成するか、あるいは、失敗を理解できなければならず、場合によっては論理的に固定されなければならないか、という、鮮明な実験結果と深い理解を目指している。
訳抜け防止モード: この作業では、単純で一般的なGNNアーキテクチャを使用します。 実験結果と深い理解を得ることを目指しています 学習値関数におけるポリシーの欲求は、トレーニングで使用されるものよりも大きいインスタンスに対して100パーセント近い一般化を達成する。 あるいは失敗を論理的に理解し 修正しなければなりません
0.71
For this, we exploit the relation established between the expressive power of GNNs and the C2 fragment of first-order logic (namely, FOL with 2 variables and counting quantifiers). このため、GNNの表現力と一階述語論理のC2フラグメント(つまり2変数のFOLと量子化器のカウント)の関係を利用する。 0.69
We find for example that domains with general policies that require more expressive features can be solved with GNNs once the states are extended with suitable ”derived atoms” encoding role compositions and transitive closures that do not fit into C2. 例えば、より表現力のある特徴を必要とする一般的なポリシーを持つドメインは、状態が適切な"起源原子"で拡張されると、C2に適合しない役割組成と推移的クロージャで解決できる。 0.73
The work follows the GNN approach for learning optimal general policies in a supervised fashion (St˚ahlberg, Bonet, and Geffner, 2022); but the learned policies are no longer required to be optimal (which expands the scope, as many planning domains do not have general optimal policies) and are learned without supervision. この研究は、監督的なやり方で最適な一般政策を学ぶためのGNNのアプローチ(セント・シャルベルク、ボネット、ゲフナー、2022年)に従っているが、学習された政策はもはや最適である必要はなく(多くの計画領域が一般的な最適政策を持っていないため、範囲を広げる)、監督なしで学習される。
訳抜け防止モード: 研究はGNNのアプローチに従っている 監督されたやり方で最適な一般政策を学ぶ(聖ハールベルク、ボネット、ゲフナー、2022年) しかし 学習方針はもはや 最適なように 範囲を広げます 多くの計画領域は 一般的な最適方針を持っていません )を指導せずに学習した。
0.75
Interestingly, value-based reinforcement learning methods that aim to produce optimal policies, do not always yield policies that generalize, as the goals of optimality and generality are in conflict in domains where optimal planning is NP-hard. 興味深いことに、最適な政策を生み出すことを目的とした価値ベースの強化学習手法は、最適性と一般化の目標がnpハードな領域で相反するので、必ずしも一般化する政策をもたらすとは限らない。
訳抜け防止モード: 興味深いことに、最適な政策を生み出すことを目的とした、価値に基づく強化学習手法。 常に一般化する政策を 最適性と一般性の目標は、最適計画がNPであるドメインで矛盾している。
0.63
1 Introduction Generalized planning is concerned with the computation of general policies for families of planning instances over the same domain that span different state spaces. 1 はじめに 一般的な計画は、異なる状態空間にまたがる同じドメイン上の計画インスタンスのファミリーに対する一般的なポリシーの計算に関するものである。 0.58
For example, a general policy for solving Blocks problems can place all blocks on the table and stack then the desired towers, bottom up, one at at time. 例えば、ブロック問題を解くための一般的なポリシーは、すべてのブロックをテーブルの上に配置し、次に所望のタワーをボトムアップする。 0.71
The formulation and the computation of general policies is particularly interesting at it involves ideas from planning, knowledge representation, and learning. 一般的な政策の定式化と計算は、特に計画、知識表現、学習からのアイデアを含むという点で興味深い。 0.71
Indeed, the language for representing the general policies is key, in particular in domains where the set of ground actions change from instance to instance (Bonet and Geffner, 2018). 実際、一般的なポリシーを表現するための言語は、特に基底アクションのセットがインスタンスからインスタンスに変化するドメインにおいて重要である(bonet and geffner, 2018)。 0.77
Also learning policies from examples has been found to be simpler than synthesizing them from specifications (Khardon, 1999; Srivastava et al , 2008; Bonet また、例からの学習方針は、仕様からそれらを合成するよりも単純であることが判明した(Khardon, 1999; Srivastava et al , 2008; Bonet)。
訳抜け防止モード: 例から学ぶ政策も 仕様 (khardon , 1999 ; srivastava et al , 2008 ; bonet) から合成するよりも単純であることが判明した。
0.81
et al , 2009; Hu and De Giacomo, 2011; Belle and Levesque, 2016; Segovia et al , 2016). et al、2009年、hu and de giacomo、2011年、belle and levesque、2016年、segovia et al、2016年)。 0.69
In planning, it is common to approach the problem assuming that domain predicates are known, while some deep learning and deep reinforcement learning approaches address the problem with no domain knowledge, representing the states, for example, as 2D images (Chevalier-Boisvert et al , 2019; Campero et al , 2021; Cobbe et al , 2020). プランニングでは、ドメイン述語が知られていると仮定して、ドメインの知識のない問題にアプローチすることが一般的であるが、深層学習や深層学習のアプローチでは、状態を表す2Dイメージ(Chevalier-Boisvert et al , 2019; Campero et al , 2021; Cobbe et al , 2020)のようなドメイン知識のない問題に対処する。 0.75
In this paper, we consider the problem of learning generalized policies for classical planning domains using graph neural networks (Scarselli et al , 2008; Hamilton, 2020) from small instances represented in lifted STRIPS. 本稿では, グラフニューラルネットワーク(Scarselli et al , 2008; Hamilton, 2020)を用いて, STRIPSで表される小さな事例から, 古典的計画領域の一般的なポリシーを学習する問題を考察する。 0.87
The problem has been considered before but using neural architectures that are more complex and with results that are often less crisp, involving in certain cases heuristic information or search (Toyer et al , 2020; Garg et al , 2020; Rivlin et al , 2020; Karia and Srivastava, 2021; Shen et al , 2020). 問題はこれまで検討されてきたが、より複雑で結果が不明瞭で、一部のケースではヒューリスティックな情報や検索(Toyer et al , 2020; Garg et al , 2020; Rivlin et al , 2020; Karia and Srivastava, 2021; Shen et al , 2020)が関与している。
訳抜け防止モード: 問題は以前にも検討されてきたが、より複雑な神経アーキテクチャを用いている。 また、一部のケースではヒューリスティックな情報や検索(Toyer et al, 2020 ; Garg et al, 2020 ; Rivlin et al, 2020 ; Karia and Srivastava, 2021 ; Shen et al, 2020 )にかかわることが少なくない。
0.83
We use a simple and general GNN architecture and aim at obtaining crisp experimental results and a deeper understanding: either the policy greedy in the learned value function achieves close to 100% generalization over instances larger than those used in training, or the failure must be understood and, possibly fixed, using logical methods. 学習された値関数のポリシー欲求は、トレーニングで使用されるものよりも大きいインスタンスに対して100%近い一般化を達成するか、あるいは、論理的手法を用いて、失敗を理解し、修正する必要があるかのどちらかである。
訳抜け防止モード: 我々は、単純で一般的なGNNアーキテクチャを用いて、鮮明な実験結果と深い理解を目指しています。 : 学習値関数における政策欲求は, 学習で使用するものよりも大きめのインスタンスに対して, 100%近く一般化する。 あるいは、論理的手法を使って、失敗を理解し、修正する必要がある。
0.67
For this, we exploit the relation between the expressive power of GNNs and the two-variable fragment of first-order logic with counting, C2, that includes the standard description logics (Barcel´o et al , 2020; Grohe, 2020). このため、GNNの表現力と、標準的な記述論理(Barcel ́o et al , 2020; Grohe, 2020)を含む一階述語論理の2変数断片C2の関係を利用する。 0.71
Description logic features have been used indeed for expressing general policies and general value functions (Mart´ın and Geffner, 2004; Fern et al , 2006; Bonet et al , 2019; Franc`es et al , 2019, 2021). 記述論理の機能は、実際は一般的なポリシーや一般値関数を表現するために使われている(Mart ́ın and Geffner, 2004; Fern et al , 2006; Bonet et al , 2019; Franc`es et al , 2019, 2021)。 0.82
We find for example that domains with general policies that require more expressive features can be solved with GNNs once the states are extended with suitable ”derived atoms” for encoding role compositions and transitive closures that do not fit into C2. 例えば、より表現力のある特徴を必要とする一般のポリシーを持つドメインは、状態がC2に適合しない役割組成と推移的クロージャを符号化するのに適切な「起源原子」で拡張されると、GNNで解決できる。 0.66
The work follows the GNN approach for learning optimal general policies in a supervised fashion (St˚ahlberg et al , 2022) but the learned policies are no longer required to be optimal, which expands the scope of the approach, as many planning domains do not admit general optimal policies, and are learned without supervision. この研究は、監督的な方法で最適な一般政策を学ぶためのGNNアプローチ(St sahlberg et al , 2022)に従っているが、学習されたポリシーはもはや最適である必要はなく、多くの計画領域は一般的な最適政策を認めておらず、監督なしで学習される。 0.76
The learning problem becomes the problem of learning a value function V that can be applied to the states s of any domain instance, such that the greedy policy in V solves the training instances. 学習問題は、任意のドメインインスタンスの状態 s に適用可能な値関数 V を学習する問題となり、V の欲求ポリシーがトレーニングインスタンスを解く。 0.63
Versions of バージョン 0.47
英語(論文から抽出)日本語訳スコア
this idea have been used in combinatorial settings (Franc`es et al , 2019, 2021). このアイデアは、組合せ設定(Franc`es et al , 2019, 2021)で使われてきた。 0.84
Interestingly, value-based reinforcement learning methods that aim to produce optimal value functions V = V ∗ are shown not to generalize as well in domains that admit (non-optimal) general policies but where optimal planning is NP-hard. 興味深いことに、最適値関数 v = v ∗ を作ろうとする値ベースの強化学習法は、(最適でない)一般ポリシーを許容するが、最適計画がnp困難である領域でも一般化しない。
訳抜け防止モード: 興味深い、価値に基づく強化学習手法 最適な値関数 V = V ∗ 非最適の)一般的な方針を認める領域において、同様に一般化しないことが示される しかし、最適なプランニングはNPです。
0.74
The rest of the paper is organized as follows. 残りの論文は以下の通り整理される。 0.66
First we discuss related research, then cover the background (classical planning, general policies and value functions, and GNNs) and the actual GNN architecture and loss functions used for learning. まず、関連する研究の背景(古典的計画、一般的な方針と価値関数、GNN)と、学習に使用する実際のGNNアーキテクチャと損失関数について論じる。 0.74
This is followed by the experimental section, analyses, and a summary. 以下は、実験セクション、分析、要約である。 0.44
2 Related Work Some related research threads are the following. 2 関連作業 関連する研究スレッドは以下のとおりである。 0.71
Generalized planning (GP). Formulations of generalized planning differ in the way in which general policies are represented; most often, as logic programs, finite-state controllers, or programs with loops (Khardon, 1999; Srivastava et al , 2008; Bonet et al , 2009; Hu and De Giacomo, 2011; Belle and Levesque, 2016; Segovia et al , 2016). 総合計画(GP)。 一般計画の定式化は一般的な方針を表す方法によって異なり、多くの場合、論理プログラム、有限状態コントローラ、ループを持つプログラムとして(Khardon, 1999; Srivastava et al , 2008; Bonet et al , 2009; Hu and De Giacomo, 2011; Belle and Levesque, 2016; Segovia et al , 2016)。 0.74
In all cases, the most compact policies that manage to solve a family of examples are sought, and the key question is how the space of possible programs or controllers is defined. いずれの場合も、例群をうまく解決する最もコンパクトなポリシーを求め、鍵となる問題は、プログラムやコントローラの空間をどのように定義するかである。 0.72
GP with logical features. 論理的特徴を持つGP。 0.67
An alternative approach is to define the general policies as collection of rules over a set of logical features (Bonet and Geffner, 2018), often derived from the domain predicates using a description logic grammar (Mart´ın and Geffner, 2004; Fern et al , 2006). 別のアプローチとして、一般的なポリシーを論理的な特徴の集合上のルールの集合として定義する(bonet and geffner, 2018)が、説明論理文法を用いてドメイン述語から導かれることが多い(mart ́ın and geffner, 2004; fern et al , 2006)。 0.80
Recent methods learn such policies from pools of such features (Bonet et al , 2019; Franc`es et al , 2021); in some cases, by learning value functions (Franc`es et al , 2019). 最近の手法では、そのような特徴のプール(bonet et al , 2019; franc`es et al , 2021)からそのようなポリシーを学習し、場合によっては値関数を学ぶ(franc`es et al , 2019)。 0.80
The Boolean and numerical features are closely related to the variables used in qualitative numerical planning models (Srivastava et al , 2011; Bonet and Geffner, 2020b). ブールと数値の特徴は定性的数値計画モデル(Srivastava et al , 2011; Bonet and Geffner, 2020b)で使用される変数と密接に関連している。 0.83
Generalized policies using deep learning. 深層学習を用いた一般的な政策。 0.64
Deep learning and deep reinforcement learning methods have been used to compute general policies from sampled problems without having to predefine the space of possible features. 深層学習と深層強化学習は, 潜在的な特徴の空間を事前に定義することなく, サンプル問題から一般的な政策を計算するために用いられている。 0.66
In some cases, the planning representation of the domains is used (Toyer et al , 2020; Garg et al , 2020; Rivlin et al , 2020); in other cases, it is not (Groshev et al , 2018; ChevalierBoisvert et al , 2019; Campero et al , 2021; Cobbe et al , 2020). 場合によっては、ドメインの計画表現(toyer et al , 2020; garg et al , 2020; rivlin et al , 2020)が使用される(groshev et al , 2018; chevalierboisvert et al , 2019; campero et al , 2021; cobbe et al , 2020)。 0.67
Also in some cases, the learning is supervised; in others, it is based on reinforcement learning (Bertsekas, 1995; Sutton and Barto, 2018; Franc¸ois-Lavet et al , 2018). また、その学習は監督されており、強化学習に基づくものもある(Bertsekas, 1995; Sutton and Barto, 2018; Franc sois-Lavet et al , 2018)。 0.71
The neural networks learn to map states into a feature representation that is mapped into the value or policy associated to the state. ニューラルネットワークは、状態に関連付けられた値やポリシーにマッピングされた特徴表現に状態をマップすることを学ぶ。 0.82
GNNs and logic. A graph neural network learns to map vertices of a graph into feature representations that can be aggregated and fed into a feedforward neural network for classifying graphs, and more generally, for computing functions over graphs independently of their size (Scarselli et al , 2008; Hamilton, 2020). gnnとロジック。 グラフニューラルネットワークは、グラフの頂点を特徴表現にマッピングし、グラフを分類するためのフィードフォワードニューラルネットワークに集約し、より一般的に、そのサイズとは独立にグラフ上の関数を計算することを学ぶ(scarselli et al , 2008; hamilton, 2020)。 0.67
Since the computational model is based on message passing, GNNs cannot distinguish all 計算モデルはメッセージパッシングに基づいているため、GNNはすべての区別ができない 0.77
pairs of graphs that are not isomorphic but can distinguish those that are distinguished by the WL coloring procedure (Morris et al , 2019; Xu et al , 2019). グラフのペアは同型ではないが、WL色付け手順によって区別されるグラフを区別することができる(Morris et al , 2019; Xu et al , 2019)。 0.72
These correspond in turn to those that can be distinguished by formulas in the two-variable fragment of first-order logic with counting quantifiers, C2, which includes the standard description logics (Barcel´o et al , 2020; Grohe, 2020). これらは、数量化子 (counting quantifiers) を含む一階述語論理の2変数の断片(barcel ́o et al , 2020; grohe, 2020)の式で区別できるものに対応する(barcel ́o et al , 2020)。 0.70
GNNs and optimal general policies. GNNと最適な一般政策。 0.42
St˚ahlberg, Bonet, and Geffner (2022) use GNNs to learn optimal general policies in a supervised fashion from targets V ∗(s) and sampled states s, taking advantange of a GNN architecture introduced for learning to solve Max-CSPs (Toenshoff et al , 2021), extended to the more general relational structures underlying planning states where objects define the universe, predicates define the relations, and atoms define their denotations. セント・シャルベルク、ボネット、ゲフナー (2022) は GNN を用いて、目標 V ∗(s) とサンプル状態 s から最適の一般ポリシーを学習し、マックス=CSP (Toenshoff et al , 2021) を解くために導入された GNN アーキテクチャの利点を取り入れ、オブジェクトが宇宙を定義、述語が関係を定義、原子がそれらの記述を定義する計画状態の根底にあるより一般的な関係構造に拡張した。 0.79
In this work, we build on these results to learn general policies that are not necessarily optimal (and which hence cover more domains) without supervision and without having to predefine a pool of features (Franc`es et al , 2019). 本研究では、これらの結果に基づいて、監視なしで、機能のプールを事前に定義することなく、必ずしも最適ではない(従ってより多くのドメインをカバーする)一般的なポリシーを学ぶ(Franc`es et al , 2019)。 0.65
3 Classical Planning A classical planning problem is a pair P =(cid:104)D, I(cid:105) where D is a first-order domain and I contains information about the instance (Geffner and Bonet, 2013; Ghallab et al , 2016; Haslum et al , 2019b). 古典的計画 古典的な計画問題はペア P = (cid:104)D, I(cid:105) であり、D は一階領域であり、I はインスタンスに関する情報を含んでいる(Geffner and Bonet, 2013; Ghallab et al , 2016; Haslum et al , 2019b)。 0.71
The domain D contains a set of predicate symbols p and a set of action schemas with preconditions and effects given by atoms p(x1, . . . , xk) where each xi is an argument of the schema. ドメインDは述語記号 p の集合と、各xi がスキーマの引数である原子 p(x1, . . . . , xk) によって与えられる事前条件と効果を持つ一連のアクションスキーマを含む。 0.80
An instance is a tuple I =(cid:104)O, Init, Goal(cid:105) where O is a set of object names ci, and Init and Goal are sets of ground atoms p(c1, . . . , ck). 例えば、タプル I = (cid:104)O, Init, Goal (cid:105) ここで、O は対象名 ci の集合であり、Init と Goal は基底原子 p(c1, . . . . .) の集合である。 0.81
A classical problem P =(cid:104)D, I(cid:105) encodes a state model S(P ) = (cid:104)S, s0, SG, Act, A, f(cid:105) in compact form where the states s ∈ S are sets of ground atoms from P , s0 is the initial state I, SG is the set of goal states s such that SG ⊆ s, Act is the set of ground actions in P , A(s) is the set of ground actions whose preconditions are (true) in s, and f is the transition function so that f (a, s) for a ∈ A(s) represents the state s(cid:48) that follows action a in the state s. A classical problem P =(cid:104)D, I(cid:105) encodes a state model S(P ) = (cid:104)S, s0, SG, Act, A, f(cid:105) in compact form where the states s ∈ S are sets of ground atoms from P , s0 is the initial state I, SG is the set of goal states s such that SG ⊆ s, Act is the set of ground actions in P , A(s) is the set of ground actions whose preconditions are (true) in s, and f is the transition function so that f (a, s) for a ∈ A(s) represents the state s(cid:48) that follows action a in the state s.
訳抜け防止モード: 古典的問題 P = ( cid:104)D, I(cid:105 ) は状態モデル S(P ) = ( cid:104)S, s0, SG, Act, A, f(cid:105 ) in compact form where the state s ∈ S are set of groundatom from P, s0 is the initial state I, SG is set of goal state s as that。 SG > s, Act は P, A(s) の基底作用の集合である s の前提条件が ( true ) である基底アクションの集合である。 fは遷移関数であり a ∈ A(s ) に対する f(a, s ) は状態 s(cid:48) を表す。 ) 状態 s における行動 a に従うもの
0.88
An action sequence a0, . . . , an is applicable in P if ai ∈ A(si) and si+1 = f (ai, si), for i = 1, . . . , n, and it is a plan if sn+1 ∈ SG. 作用列 a0, . . . . . . , an が p において、ai ∈ a(si) と si+1 = f(ai, si) が i = 1, . . . , n に対して適用され、sn+1 ∈ sg が計画である。 0.83
The cost of a plan is assumed to be given by its length and a plan is optimal if there is no shorter plan. 計画の費用はその長さによって与えられると仮定され、計画が短い計画がない場合に最適である。 0.89
The representation of planning problems P in two parts D and I, one that is general, and the other that is specific, is essential for defining and computing general policies, as the instances are assumed to come all from the same domain. 計画問題 p の2つの部分 d と i における表現は、インスタンスがすべて同じドメインから来ていると仮定されるため、一般的なポリシーを定義し、計算するのに不可欠である。 0.67
Recent work has addressed the problem of learning the action schemas and predicates (Cresswell et al , 2013; Asai, 2019; Bonet and Geffner, 2020a; Rodriguez et al , 2021). 最近の研究は、アクションスキーマと述語を学ぶ問題に対処している(Cresswell et al , 2013; Asai, 2019; Bonet and Geffner, 2020a; Rodriguez et al , 2021)。 0.82
4 General Policies and Value Functions 4 一般政策と価値関数 0.77
One approach for expressing general policies is as rules C (cid:55)→ E where the condition C and the effect E are defined in terms of state features (Bonet and Geffner, 2018). 一般的な政策を表現する一つのアプローチは、条件 C (cid:55)→ E であり、条件 C と効果 E は状態特徴の観点で定義される(Bonet and Geffner, 2018)。 0.82
State features or simply, features, refer to functions φ over the state, and Boolean and numerical features refer to state functions that return Boolean and numerical values. 状態特徴または単純に、状態上の関数 φ を参照し、ブールおよび数値的特徴はブール値と数値的値を返す状態関数を参照する。 0.84
For example, a general policy for clearing a block x can be ex- 例えば、ブロック x をクリアするための一般的なポリシーは ex- 0.81
英語(論文から抽出)日本語訳スコア
pressed in terms of the two features Φ = {H, n}, where H is a true in a state if a block is being held, and n represents the number of blocks above x. 2つの特徴 φ = {h, n} の項で押されると、h はブロックが保持されている状態において真であり、n は x 上のブロックの数を表す。 0.82
The policy rules are ¬H, n > 0 (cid:55)→ H, n↓ 政策のルールは h, n > 0 (cid:55)→ h, n) である。 0.74
, H (cid:55)→ ¬H , h (cid:55)→-h 0.42
(1) that say that, when the gripper is empty and there are blocks above x, any action that decreases n and makes H true should be selected, and that when the gripper is not empty, any action that makes H false and does not affect n should be selected. 1)グリッパーが空で、x の上のブロックがある場合、n を減少させ h を真とする動作は選択すべきであり、グリッパーが空でない場合は、h を虚偽とし、n に影響を与えない動作を選択するべきである。 0.69
General policies of this form can be learned without supervision by solving a combinatorial optimization problem T (S,F) where S is a set of sampled state transitions and F is a large but finite pool of description logic features obtained from the domain predicates (Bonet et al , 2019; Franc`es et al , 2021). この形式の一般的なポリシーは、S をサンプル状態遷移の集合とし、F を領域述語から得られる記述論理の大規模かつ有限なプールとする組合せ最適化問題 T (S,F) を解くことで、監督なしで学べる(Bonet et al , 2019; Franc`es et al , 2021)。 0.78
Another way to represent (general) policies is by means of (general) value functions. 一般的な)ポリシーを表現する別の方法として、(一般的な)バリュー関数がある。 0.59
In dynamic programming and RL (Bellman, 1957; Sutton and Barto, 2018; Bertsekas, 1995), a value function V defines a (non-deterministic) greedy policy πV that selects in a state s any possible successor state s(cid:48) with minimum V (s(cid:48)) value under the assumption that actions are deterministic and have the same cost. 動的プログラミングとrl(bellman, 1957; sutton and barto, 2018; bertsekas, 1995)において、値関数 v は、状態 s において、最小 v (s(cid:48)) を持つ任意の後継状態 s(cid:48) を、アクションが決定論的で同じコストを持つという仮定の下で選択する(非決定論的)欲欲政策 πv を定義する。 0.76
A policy π solves an instance P if the state transitions compatible with π, starting with the initial state, eventually end up in a goal state. 方針 π がインスタンス p を解くのは、状態が π と相容れない場合であり、初期状態から始まり、最終的にゴール状態となる。 0.77
If V is optimal, i.e., V = V ∗, the greedy policy πV is optimal too, selecting state transitions along optimal paths. V が最適、すなわち V = V ∗ ならば、欲求ポリシー πV も最適であり、最適経路に沿って状態遷移を選択する。 0.82
General value functions for a class of problems are defined in terms of features φi that have well-defined values over all states of such problems as: 問題のクラスに対する一般値関数は、次のような問題のすべての状態に対して well-defined value を持つ特徴 φi の項で定義される。 0.75
V (s) = F (φ1(s), . . . , φk(s)) . v (s) = f ( φ1(s), . . , φk(s)) である。 0.82
(cid:88) (2) (cid:88) (2) 0.41
(3) Linear value functions have the form (3) 線形値関数は形式を持つ 0.63
V (s) = 1≤i≤k V(s) = 1≤i≤k 0.31
wiφi(s) wiφi (複数形 wiφis) 0.43
where the coefficients wi are constants that do not depend on the states. 係数 wi は状態に依存しない定数である。 0.54
For example, a general, linear value function for clearing block x while having an empty gripper is V = 2n+ H, where the states are left implicit, and the Boolean feature H is assumed to have value 1 when true, and 0 otherwise. 例えば、空グリッパーを持つブロック x をクリアするための一般的な線形値関数は v = 2n+ h であり、ここでは状態は暗黙に残され、ブール特徴 h は真であれば値 1 でなければ 0 と仮定される。 0.83
Linear value functions using description logic features (Bonet et al , 2019), called generalized potential heuristics, can be learned from small instances via a mixed integer programming formulation, leading to an alternative representation of general policies that solve many standard planning domains (Franc`es et al , 2019). 一般化ポテンシャルヒューリスティック(英語版)と呼ばれる記述論理機能(Bonet et al , 2019)を用いた線形値関数は、混合整数プログラミングの定式化によって小さなインスタンスから学習することができ、多くの標準的な計画領域を解決する一般的なポリシーの代替表現(Franc`es et al , 2019)につながる。 0.77
5 Features Logical features derived from the domain predicates using a description logic grammar have been used to define and learn policies of the form (1) and value functions of the form (3).1 5つの特徴 記述論理文法を用いたドメイン述語から派生した論理的特徴は、フォーム(1)のポリシーとフォーム(3).1の値関数の定義と学習に使用されている。 0.75
The complexity of such features is defined in terms of the number of grammar rules required to derive them, and このような特徴の複雑さは、それらを引き出すのに必要な文法規則の数で定義される。 0.78
1These logical features have also been used to encode “sketches”, a generalization of policies that split problems into (polynomial) subproblems of bounded width (Drexler et al , 2021). 1-論理 また、"sketches"は、問題(多項)を境界幅(drexler et al, 2021)の(多項)部分問題に分割するポリシーの一般化である。 0.68
Policies are a special type of sketches where the subproblems can be solved in one step (Bonet and Geffner, 2021). ポリシーは、サブプロブレムを1ステップで解決できる特別な種類のスケッチである(Bonet and Geffner, 2021)。 0.65
the pool of features used is obtained by placing a bound on the complexity of the features. 使用される特徴のプールは、特徴の複雑さに限定して得られる。 0.74
An important limitation of these methods is that the pool of features grows exponentially with the complexity bound, and that some domains require complex features. これらの手法の重要な制限は、特徴のプールが複雑性境界とともに指数関数的に成長し、いくつかの領域は複雑な特徴を必要とすることである。
訳抜け防止モード: これらの方法の重要な制限は 特徴のプールは 複雑さによって指数関数的に成長します 複雑な機能を必要とするドメインもあります
0.73
For example, Franc`es, Corrˆea, Geissmann, and Pommerening (2019) cannot learn general value functions for Logistics and Blocks because they appear to require features of complexity 22 and 49, respectively. 例えば、france`es、corríea、geissmann、pommerening(2019)は、それぞれ複雑さ22と49の特徴を必要とするように見えるため、ロジスティクスとブロックの一般的な値関数を学ぶことができない。 0.74
Interestingly, the features required to express the policy rules for some of these domains is much smaller (Franc`es et al , 2021). 興味深いことに、これらのドメインのポリシールールを表現するのに必要な機能はずっと小さい(franc`es et al , 2021)。 0.81
For learning general policies without using a precomputed pool of features, it turns out to be simpler and more direct to learn general value functions, and then define greedy policies from them. 事前計算された機能を使わずに一般的なポリシーを学ぶと、一般的な価値関数を学習し、それらから欲深いポリシーを定義するのがより簡単で直接的であることがわかりました。 0.66
A first step in this direction was taken by St˚ahlberg, Bonet, and Geffner (2022) where the value function V was learned in a supervised fashion using graph neural networks from optimal targets V ∗. この方向の第1ステップは、最適な目標 V ∗ からグラフニューラルネットワークを用いて、値関数 V を教師付きで学習した St yahlberg, Bonet, and Geffner (2022) によって行われた。 0.81
Graph neural networks have also been used in other approaches to generalized planning using deep nets (Toyer et al , 2020; Garg et al , 2020; Rivlin et al , 2020), but in combination with other techniques and without drawing on the relation between the features that can be learned by GNNs and those that are actually needed. グラフニューラルネットワークは、ディープネット(toyer et al , 2020; garg et al , 2020; rivlin et al , 2020)を用いた一般的な計画計画の他の手法でも使われてきたが、他の手法と組み合わせて、gnnで学べる特徴と実際に必要とされる機能の関係を描いていない。 0.79
6 Graph Neural Networks 6グラフニューラルネットワーク 0.75
The GNN architecture for learning value functions follows the one used by St˚ahlberg, Bonet, and Geffner (2022): it accepts states s over arbitrary instances of a given planning domain, and outputs the scalar value V (s). 価値関数を学習するためのGNNアーキテクチャは、セント・シャルベルク、ボネット、ゲフナー (2022) によって使われるものに従う: 与えられた計画領域の任意のインスタンス上の状態 s を受け入れ、スカラー値 V(s) を出力する。 0.73
For this, the form of the general value function V (s) in (2) is reformulated as: これに対し、(2)における一般値関数 V(s) の形式は、次のように再編成される。 0.67
V (s) = F (φ(o1), . . . , φ(on)) V(s) = F(φ(o1), . , φ(on)) 0.38
(4) where o1, . . . , on represent the objects in the instance where the state s is drawn from, φ(o) is a vector of feature values associated with object o in state s (dependence on s omitted), represented as a vector of real numbers, and F is a function that aggregates these feature vectors and produces the scalar output V (s). (4) o1, . . . . が状態 s が引き出されたインスタンスのオブジェクトを表す場合、 φ(o) は状態 s のオブジェクト o に関連付けられた特徴値のベクトルであり、実数のベクトルとして表現され、f はこれらの特徴ベクトルを集約してスカラー出力 v (s) を生成する関数である。
訳抜け防止モード: (4) ここで O1, . . は状態 s が引き出されるインスタンスのオブジェクトを表す。 φ(o ) は状態 s におけるオブジェクト o に関連付けられた特徴値のベクトルである(省略 s に依存する)。 実数のベクトルとして表現され F はこれらの特徴ベクトルを集約し、スカラー出力 V ( s ) を生成する関数である。
0.66
The vectors φ(o) are usually called object embeddings and the function F , the readout. ベクトル φ(o) は一般にオブジェクト埋め込みと呼ばれ、関数 F は読み出しである。 0.82
Before revising the details of the architecture, it is worth discussing the meaning and the implication of the transition from the fully general value function form expressed in (2) to the specific form expressed in (4). アーキテクチャの詳細を変更する前に、(2)で表される完全一般値関数形式から(4)で表される特定の形式への遷移の意味と含意を議論する価値がある。 0.65
6.1 From State Features to Object Embeddings We are moving from state features to object features φ(o) that depend not just on the state s but on the objects o. 6.1 状態特徴からオブジェクトの埋め込み 状態特徴からオブジェクト特徴への移動 φ(o) は状態 s だけでなく、オブジェクト o にも依存します。 0.80
In addition, the same feature function φ is applied to all the objects, and the same aggregation function F is applied to the states s of any of the domain instances so that the number of feature vectors φ(o) expands or contracts according to the number of objects in the instance. さらに、同じ特徴関数 φ がすべてのオブジェクトに適用され、同じ集約関数 f がドメインインスタンスの状態 s に適用されるので、特徴ベクトル φ(o) の数がインスタンス内のオブジェクトの数に応じて拡張または縮小される。 0.77
This is key for having a well-defined value function over the whole collection of domain instances that involve a different numbers of objects, not necessarily bounded. これは、必ずしも境界ではなく、異なる数のオブジェクトを含むドメインインスタンスの集まり全体にわたって明確に定義された値関数を持つための鍵となります。
訳抜け防止モード: これは、ドメインインスタンスの集合全体にわたって明確に定義された値関数を持つための鍵である。 異なる数の物体を巻き込みます
0.73
The reasons for why the restricted value function form (4) is rich enough for capturing the value functions needed for 制限値関数フォーム(4)が、必要な値関数をキャプチャするのに十分なリッチである理由 0.78
英語(論文から抽出)日本語訳スコア
generalized planning can be understood by comparing (4) with the linear value functions (3) used by Franc`es, Corrˆea, Geissmann, and Pommerening (2019) in combination with description logic features. 一般計画法は (4) と Franc`es, Corrzea, Geissmann, Pommerening (2019) で使われる線型値関数 (3) を比較することで理解することができる。
訳抜け防止モード: 4 ) と franc`es が使用する線形値関数 (3 ) を比較して一般化計画を理解することができる。 corršea, geissmann, pommerening (2019) は記述論理機能と組み合わせて開発された。
0.82
These Boolean and numerical features bq(s) and nq(s) are defined in terms of derived unary predicates q, where bq(s) = 1 (true) if there is an object o such that q(o) is true in s, otherwise 0; and nq(s) = m is the number of objects o for which q(o) is true in s. これらのブール的および数値的特徴 bq(s) と nq(s) は、導出不定述語 q の項で定義される: ここで bq(s) = 1 (true) は、対象 o が存在して q(o) が s において真でなければ 0 であり、nq(s) = m は s において q(o) が真である対象 o の個数である。 0.88
Clearly, if the feature vectors φ(oi) in (4) contain a bit encoding whether q(o) is true in s, then the readout function F would just need to take the max and the sum of the bits q(o) as 明らかに、(4) の特徴ベクトル φ(oi) が s において q(o) が真かどうかを符号化するビットを含むなら、読み出し関数 F は、ビット q(o) の最大和と和を取るだけでよい。 0.86
bq(s) = max bq(s) = max 0.43
nq(s) = (cid:88) nq(s) = (cid:88) 0.41
o q(o) , q(o) , おお q(o)。 q(o)。 0.63
(5) (6) Algorithm 1: GNN maps state s into scalar V (s) Input: State s: set of atoms true in s, set of objects Output: V(s) 1 f0(o) ∼ 0k/2N (0, 1)k/2 for each object o ∈ s; 2 for i ∈ {0, . . . , L − 1} do (5) (6) アルゴリズム 1: GNN は状態 s をスカラー V (s) にマッピングする 入力: 状態 s: s において真となる原子の集合 オブジェクトの集合 出力: V(s) 1 f0(o) シュ 0k/2N (0, 1)k/2 の各オブジェクト o ∈ s; 2 for i ∈ {0, , L − 1} do. 0.57
3 4 5 6 for each atom q := p(o1, . . . , om) true in s do 3 4 5 6 各原子 q := p(o1, . . . . . , om) について s do 0.53
// Msgs q → o for each o = oj in q mq,o := [MLPp(fi(o1), . . . , fi(om))]j; // msgs q → o for each o = oj in q mq,o := [mlpp(fi(o1), . . , fi(om))]j;
訳抜け防止モード: // msgs q → o の各 o = oj は q mq である。 o : = [ mlpp(fi(o1 ) , . . , fi(om))]j ;
0.76
for each o in s do s の各 o に対して 0.80
// Aggregate, update embeddings fi+1(o) := MLPU aggregate, update embeddeds fi+1(o) := MLPU 0.36
(cid:0)fi(o), agg({{mq,o|o ∈ q}})(cid:1); (cid:0)fi(o), agg({{mq,o|o ∈ q}})(cid:1) 0.46
// Final Readout 7 V := MLP2 // 最終読み出し 7 V := MLP2 0.66
(cid:0)(cid:80) (cid:0)(cid:80) 0.37
o∈s MLP1(fL(o))(cid:1) o・s MLP1(fL(o))(cid:1) 0.34
o in order to capture such features, where the objects o range over all the objects o in the instance. おお このような特徴をキャプチャするために、オブジェクト o はインスタンスのすべてのオブジェクト o にまたがる。 0.67
In other words, the object-embedding form (4) is no less expressive than the linear form that uses description logic features, provided that the feature vectors φ(o) are expressive enough to represent the bits qi(o) for unary predicates qi derived from the domain predicates using the description logic grammar. 言い換えれば、対象埋め込み形式 (4) は記述論理的特徴を用いた線形形式に劣らず表現的であり、特徴ベクトル φ(o) が記述論理文法を用いて、ドメインから派生した単項述語 qi のビット qi(o) を表すのに十分表現的である。 0.81
This in turn is known to be within the capabilities of standard, message passing GNNs, that can capture the properties that can be expressed in the guarded fragment of the variable logic with counting C2, which includes the standard description logics (Barcel´o et al , 2020). これは、標準記述ロジック(barcel ́o et al , 2020)を含むc2をカウントすることで、変数論理のガードされたフラグメントで表現できるプロパティをキャプチャできる標準メッセージパッシングgnnの機能内にあることが知られている。 0.71
Below we follow the terminology of graph neural networks and refer to graphs and not states, and to vertex embeddings f (v) and not object embeddings φ(o). 下記のグラフニューラルネットワークの用語に従い、状態ではなくグラフを参照し、対象埋め込み φ(o) ではなく、頂点埋め込み f(v) を参照する。 0.74
After considering standard GNNs for undirected graphs, we introduce the generalization needed for dealing with the relational structures represented by planning states. 非有向グラフの標準 gnn を考えると、計画状態によって表される関係構造を扱うのに必要な一般化を導入する。 0.71
6.2 GNNs on Graphs GNNs represent trainable, parametric, and generalizable functions over graphs (Scarselli et al , 2008; Hamilton, 2020) specified by means of aggregate and combination functions aggi and combi, and a readout function F . グラフ上の6.2 gnnは、アグリゲートと結合関数aggiとcombiと読み出し関数fによって指定されたグラフ(scarselli et al , 2008; hamilton, 2020)上の訓練可能、パラメトリック、一般化可能な関数を表す。 0.73
For each vertex v of the input graph G, the GNN maintains a state (vector) fi(v) ∈ Rk, the vertex embedding, i = 0, . . . , L, where L is the number of iterations or layers. 入力グラフ G の各頂点 v に対して、GNN は状態 (vector) fi(v) ∈ Rk, 頂点埋め込み i = 0, . . . . , L, ここで L は反復数や層の数である。 0.74
The vertex embeddings f0(v) are fixed and the embeddings fi+1 for all v are computed from the fi embeddings as: fi+1(v) := combi 頂点埋め込み f0(v) は固定され、すべての v に対する埋め込み fi+1 は、次のfi+1(v) := combi から計算される。 0.75
(cid:0){{fi (cid:0){{fi 0.46
(w)|w∈NG (w)|whtmlng 0.40
(v)}}(cid:1)(cid:1) (7) (v)}}(cid:1)(cid:1) (7) 0.46
(cid:0)fi(v), aggi (cid:0)fi(v),aggi 0.44
where NG (v) is the set of neighbors for vertex v in G, and {{. NGは (v) は G の頂点 v と {{} の近傍の集合である。 0.71
. . }} denotes a multiset. . . }} は多重集合を表す。 0.56
In words, the embeddings fi+1 言い換えると、埋め込み fi+1 0.75
(v) at iteration i + 1 are obtained by combining the aggregation of neighbors’ embeddings fi (v) イテレーションi + 1 において、隣人の埋め込み fi の集約を組み合わせることにより得られる 0.80
(w) at iteration i with v’s own embeddings fi (w) 反復 i において v 自身の埋め込み fi 0.71
(v). This process is usually seen as an exchange of messages among neighbor nodes in the graph. (v)。 このプロセスは通常、グラフ内の隣のノード間のメッセージ交換と見なされる。 0.59
The aggregation functions aggi map arbitrary collections of real vectors of dimension k into a single Rk vector. 集約関数 aggi は次元 k の実ベクトルの任意の集合を 1 つの Rk ベクトルに写像する。 0.77
Common aggregation functions are sum, max, and smooth-max (a smooth approximation of the max function). 一般的な集計関数はsum、max、smooth-max(max関数の滑らかな近似)である。 0.78
The combination functions combi map pairs of Rk vectors into a single 組合せ関数は、rkベクトルの対を1つにマップする 0.81
Rk vector. The embeddings fL(v) in the last layer are aggregated and mapped into the output of the GNN by means of a readout function F . Rkベクトル。 最終層への埋め込みfL(v)を集約し、読み出し関数Fを用いてGNNの出力にマッピングする。 0.68
In our setting, the output will be a scalar V , and the aggregation and combination functions aggi and combi will be homogeneous and not depend on the layer index i. 我々の設定では、出力はスカラー V であり、アグリゲーションと組み合わせ関数 aggi と combi は同質であり、層指数 i に依存しない。 0.59
All the functions are parametrized with weights that are adjusted by minimizing a suitable loss function. 全ての関数は、適切な損失関数を最小化することによって調整される重みでパラメータ化される。 0.64
By design, the function computed by a GNN is invariant with respect to graph isomorphisms, and once a GNN is trained, its output is well defined for any graph G regardless size. 設計上、GNN によって計算される関数はグラフ同型に対して不変であり、GNN が訓練されると、その出力はサイズにかかわらず任意のグラフ G に対してよく定義される。 0.76
6.3 GNNs for Planning States States s in planning do not represent graphs but more general relational structures that are defined by the set objects, the set of domain predicates, and the atoms p(o1, . . . , om) that are true in the state: the objects define the universe, the domain predicates, the relations, and the atoms, their denotations. 6.3 gnns for planning state s in planning はグラフではなく、状態において真である集合オブジェクト、ドメイン述語の集合、原子 p(o1, . . . . . . , om) によって定義されるより一般的な関係構造を表す。
訳抜け防止モード: 6.3 GNNs for Planning States s in planning is not represent graphs より一般的な関係構造は 集合オブジェクトによって定義されます ドメイン述語と原子p(o1, ...,)の集合 om ) 状態において真である: オブジェクトは宇宙を定義する。 ドメインは、述語、関係、そして原子、それらの意味を表現します。
0.78
The set of predicate symbols p and their arities are fixed by the domain, but the sets of objects oi may change from instance to instance. 述語記号 p とそのアリティの集合は領域によって固定されるが、 oi のオブジェクトの集合は例から例へ変化するかもしれない。 0.76
The adaptation of the basic GNN architecture for dealing with planning states s follows (St˚ahlberg et al , 2022), which is an elaboration of the architecture for learning to solve Max-CSP problems over a fixed class of binary relations introduced by Toenshoff, Ritzert, Wolf, and Grohe (2021). 計画状態 s を扱うための基本的な gnn のアーキテクチャの適応は、toenshoff, ritzert, wolf, grohe (2021) によって導入された固定された二元関係のクラスにおいて max-csp 問題を解決するためのアーキテクチャを詳述した (st sahlberg et al , 2022)。 0.80
The new GNN still maintains just the object embeddings fi(o) for each of the objects o in the input state s, i = 0, . . . , L, but now rather than messages flowing from “neighbor” objects to objects as in (7), the messages flow from objects oi to the true atoms q in s that include oi, q = p(o1, . . . , om), 1 ≤ i ≤ m, and from such atoms q to all the objects oj involved in q as: 新しいgnnは、入力状態 s, i = 0, . . . . , l 内の各オブジェクト o に対して fi(o) を埋め込みつつも、"neighbor" オブジェクトから (7) のようにオブジェクトに流れるメッセージではなく、オブジェクト oi から s 内の真の原子 q へメッセージが流れ、oi, q = p(o1, . . . . . , om), 1 ≤ i ≤ m を含む s 内のオブジェクト q から q に含まれるすべてのオブジェクト oj へと流れる。 0.80
(cid:0)fi(o), agg(cid:0){{mq,o|o ∈ q, q ∈ s}}(cid:1)(cid:1) (8) (cid:0)fi(o), agg(cid:0){{mq,o|o ∈ q, q ∈ s}}(cid:1)(cid:1) (8) 0.47
fi+1(o) := combU fi+1(o) := combU 0.47
where mq,o for q = p(o1, . . . , om) and o = oj is: mq,o := [combp(fi(o1), . . . , fi(om))]j . mq,o for q = p(o1, . . . . . , om) と o = oj は mq,o := [combp(fi(o1), . . . , fi(om))]j である。 0.82
(9) In these updates, the combination function combU takes the concatenation of two real vectors of size k and outputs a vector of size k, while the combination function combp, that depends on the predicate symbol p, takes the concatenation of m vectors of size k, where m is the arity of p, and outputs m vectors of size k as well, one for each object involved in (9)これらの更新において、コンバインド関数combuは、サイズkの実ベクトルの結合を受け、サイズkのベクトルを出力する一方、述語記号pに依存するコンバインド関数compは、サイズkのmベクトルの結合を受け取り、mはpのarityであり、サイズkのmベクトルも出力する。
訳抜け防止モード: (9 ) これらの更新において、コンビネーション関数combUは、サイズ k の2つの実ベクトルの連結を取る。 サイズ k のベクトルを出力し、組み合わせ関数combp を出力します。 これは述語記号 p に依存し、サイズ k の m ベクトルの連結を取る。 m は p のアリティで k の大きさの m ベクトルも出力します 関係する対象ごとに1つずつ
0.84
英語(論文から抽出)日本語訳スコア
the p-atom. The expression [. . .]j in (9) selects the j-th such vector in the output. p-原子。 式 [. . .]j in (9) は出力の j-th のそのようなベクトルを選択する。 0.60
The resulting trainable function that maps states s into their values V (s) is shown in Algorithm 1 with all the combination functions replaced by the multilayer perceptrons (MLPs) that implement them. 状態 s を値 V(s) にマッピングする結果として得られる訓練可能な関数はアルゴリズム1で示され、全ての組み合わせ関数はそれらを実装する多層パーセプトロン(MLP)に置き換えられる。 0.81
During the iterations i = 0, . . . , L, a single MLPU is used for updating the object embeddings following (7), and a single MLPp per predicate is used to collect the messages from atoms to objects as in (9). i = 0, . . . . , l の反復では、1つのmlpuが次の (7) オブジェクトの埋め込みの更新に使われ、1つのmlppが (9) のように原子からオブジェクトへのメッセージの収集に使用される。
訳抜け防止モード: 繰り返しの間、 i = 0, . , L, 1つのMLPUは、(7)に続くオブジェクトの埋め込みを更新するために使用されます。 述語ごとに 1 つの MLPp が使われます to collect the message fromatom to objects as as (9 )
0.87
The readout function, the last line in Algorithm 1, uses two MLPs and a sum aggregator. アルゴリズム1の最後の行であるreadout関数は、2つのMLPとsum aggregatorを使用する。 0.75
Finally, for the aggregator in line 6, we use the differentiable smooth max function smax(x1, . . . , xn) defined as 最後に、行6のアグリゲータに対して、微分可能な滑らかな最大関数 smax(x1, . . , xn) が定義される。 0.78
(cid:16)(cid:88) (出典:16)(出典:88) 0.59
(cid:17) x∗ + α−1 log (cid:17) x∗ + α−1 対数 0.52
exp(α(xj − x∗)) exp(α(xj − x∗)) 0.38
(10) 1≤j≤n (10) 1≤j≤n 0.31
where x∗ = max{x1, . . . , xn} and α = 8. ここで x∗ = max{x1, . , xn} と α = 8 である。 0.88
All MLPs consists of a dense layer with a ReLU activation function, followed by a dense layer with a linear activation function. すべてのMLPは、ReLU活性化関数を持つ高密度層と、線形活性化関数を持つ高密度層から構成される。 0.74
The hyperparameter in the networks are the embedding dimension k and the number of layers L. The initial embeddings f0(o) are obtained by concatenating a zero vector with a random vector, each of dimension k/2, to break symmetries. 初期埋め込み f0(o) は、ゼロベクトルを各次元 k/2 のランダムベクトルと連結して対称性を破ることによって得られる。 0.46
Random initialization increase expressive power for instances of fixed size (Abboud et al , 2021), however, we aim to learn policies for arbitrary sizes. ランダム初期化は固定サイズの場合の表現力を増加させる(Abboud et al , 2021)が、任意のサイズのポリシーを学ぶことを目指している。 0.76
Key for the GNN to apply to any state over the domain is the use of a single MLPp for each predicate symbol p in the domain. GNNがドメイン上の任意の状態に適用する鍵は、ドメイン内の各述語記号 p に対して単一の MLPp を使用することである。 0.86
7 Learning the GNN Parameters 7 GNNパラメータの学習 0.79
The parameters of the network displayed in Algorithm 1 are learned by stochastic gradient descent by minimizing a loss function. アルゴリズム1に表示されるネットワークのパラメータは、損失関数を最小化して確率勾配降下により学習する。 0.78
In the work of St˚ahlberg, Bonet, and Geffner (2022), the training data D is a collection of pairs (cid:104)s, V ∗(s)(cid:105) for sampled states s from selected instances, and V ∗(s) is the optimal cost for reaching the goal from s (min. number of steps). セント・サールバーグ、ボネット、ゲフナーの著作(2022年)において、訓練データdは、選択されたインスタンスからサンプリングされた状態sに対するペア(cid:104)、v ∗(s)(cid:105)の集まりであり、v ∗(s)はsから目標に到達するための最適なコストである(ステップ数)。 0.69
The loss is the average sum of the differences 損失は違いの平均的な合計です 0.73
L(s) = |V (s) − V ∗(s)| L(s) = |V(s) − V ∗(s)| 0.42
(11) over the states s in the training set. (11) 訓練セットのsを越えました 0.41
The computation of the optimal targets V ∗(s) is not a problem because we are computing them over small instances. 最適対象 V ∗(s) の計算は、小さなインスタンス上でそれらを計算しているため問題ではない。 0.69
The real problem is that by forcing the value function to be optimal over the training instances, domains such as Blocks or Miconic, where optimal planning is NP-hard (Gupta and Nau, 1992; Helmert, 2001), are excluded (except when the goals are restricted to be single atoms). 実際の問題は、トレーニングインスタンス上で値関数を最適にすることを強制することで、最適な計画がnp-hard(gupta and nau, 1992; helmert, 2001)であるブロックやミコニックのような領域は除外される(目標が単一原子に制限されている場合を除く)。 0.81
Interestingly, as discussed in the next section, this limitation pops up also in unsupervised, reinforcement learning approaches where the optimal target values V ∗(s) are not given but are sought by minimizing the Bellman error: 興味深いことに、次の節で述べたように、この制限は、最適な目標値 V ∗(s) が与えられないがベルマン誤差を最小限にすることで求める、教師なしの強化学習アプローチにも現れる。 0.66
0(s) = |V (s) − (1 + mins(cid:48)∈N (s) V (s(cid:48)))| L(cid:48) 0(s) = |V(s) − (1 + mins(cid:48)・N(s) V(cid:48))| L(cid:48) 0.47
(12) for non-goal states s, where N (s) are the states reachable from s in one step (possible successor states). (12) 非ゴール状態 s に対して、N (s) は 1 ステップで s から到達可能な状態(可能な後続状態)である。 0.56
For goal 0(s) is |V (s)|. ゴール 0(s) は |V (s)| である。 0.88
The optimal function V ∗ is the states, L(cid:48) unique value function that minimizes the resulting loss, provided that actions costs are all 1 and the goal is reachable 最適関数 v ∗ は状態であり、l(cid:48) は結果の損失を最小限に抑える一意値関数であり、アクションコストが全て 1 で目標が到達可能である。 0.80
from all states. In this work, rather than penalizing departures from the Bellman optimality equation 全州から。 この研究では、ベルマン最適方程式からの逸脱を罰するよりむしろ 0.54
V (s) = 1 + mins(cid:48)∈N (s) V (s(cid:48)) , V(s) = 1 + mins(cid:48)・N(s)V(s(cid:48)) 0.44
(13) departures from the inequality V (s) ≥ 1+mins(cid:48)∈N (s) V (s(cid:48)) are penalized with a loss for non-goal states s defined as 1(s) = max{0, (1 + mins(cid:48)∈N (s) V (s(cid:48))) − V (s)} . 13) 不等式 v (s) ≥ 1+mins(cid:48)servletn (s) v (s(cid:48)) からの逸脱は、1(s) = max{0, (1 + mins(cid:48) الn (s) v (s(cid:48))) − v (s)} と定義される非ゴール状態 s に対してペナルティが課される。 0.84
(14) L(cid:48) Furthermore, this loss is extended with two regularization terms that penalize large departures from V ∗; namely, as done by Franc`es, Bonet, and Geffner (2021), we want a value function V that also satisfies V ∗ ≤ V ≤ δV ∗, and thus settle for the minimization of the loss: (14) L(cid:48) さらに、この損失は V ∗ からの大きな逸脱を罰する2つの正規化項、すなわち Franc`es, Bonet, and Geffner (2021) によってなされるように、V ∗ ≤ V ≤ δV ∗ を満たす値函数 V を求め、従って損失を最小化する。 0.59
L1(s) = L(cid:48) L1(s) = L(cid:48) 0.45
1(s) + max{0, V ∗(s) − V (s)} + max{0, V (s) − δV ∗(s)} , 1(s) + max{0, V ∗(s) − V (s)} + max{0, V (s) − δV ∗(s)} である。 0.78
(15) where δ = 2. (15) ここで δ = 2 である。 0.78
The loss over a set S of states is the sum of the average of L1(s) for non-goal states s ∈ S and the average of |V (s)| for goal states s ∈ S. For comparison purposes, the L(cid:48) 0 loss is extend into the regularized L0 loss as well as: L0(s) = L(cid:48) 状態の集合 S 上の損失は、非ゴール状態 s ∈ S に対する平均 L1(s) とゴール状態 s ∈ S に対する平均 |V(s)| の合計である。
訳抜け防止モード: 状態の集合 S 上の損失は、非ゴール状態 s ∈ S に対する平均 L1(s) の和である。 そして、ゴール状態 s ∈ S に対する |V ( s)| の平均は、比較のために。 L(cid:48 ) 0 の損失は: L0(s ) = L(cid:48 )
0.79
0(s) + max{0, V ∗(s) − V (s)} + max{0, V (s) − δV ∗(s)} , 0(s) + max{0, V ∗(s) − V (s)} + max{0, V (s) − δV ∗(s)} である。 0.77
(16) If all the states in a small instance are in S and the overall loss is close to zero, the loss function L1 results in value functions that lead greedily to the goal (by picking the minV successors), while the loss L0 results in value functions that lead greedily and optimally to the goal. (16) 小さいインスタンスの全ての状態が s にあり、全体の損失が 0 に近い場合、損失関数 l1 は(minv の後継を選ばせることによって)ゴールにゆるやかに導く値関数を生じさせ、一方 l0 の損失は欲深く最適にゴールに導く値関数をもたらす。 0.62
For simplicity, it is assumed that the domains considered do not have dead-ends, i.e. states from which the goal is not reachable and where V ∗(s) is not well-defined. 単純さのために、考慮される領域はデッドエンド(すなわち目標が到達不能で、v∗(s) が well-defined でない状態)を持たないと仮定される。 0.70
Learning to plan in such domains requires an slight extension, with extra inputs, for labeling states as dead-ends in the training data, and extra outputs, for predicting if a state is a dead-end (St˚ahlberg et al , 2021). このような領域で計画を学ぶには、トレーニングデータのデッドエンドとして状態のラベリングを行うための追加入力と、状態がデッドエンドであるかどうかを予測する追加出力のわずかな拡張が必要である(st sahlberg et al , 2021)。 0.70
This extension is implemented and tested, but it will be skipped over in the presentation. この拡張機能は実装され、テストされているが、プレゼンテーションではスキップされる。 0.67
8 Experiments The experiments are aimed to test the generalization, coverage, and quality of the plans obtained by the policy πV greedy in the learned value function V , using the unsupervised losses L0 and L1. 8実験 この実験は、教師なし損失L0,L1を用いて、学習値関数VにおけるポリシーπVgreedyによって得られた計画の一般化、カバレッジ、品質をテストすることを目的としている。 0.70
We describe the training and testing data used, and the results. 使用するトレーニングおよびテストデータと結果について説明する。 0.72
A key difference with prior work (St˚ahlberg et al , 2022) is that the test instances are standard IPC planning problems from standard planning domains, several of which are intractable for optimal planning. 以前の作業との大きな違いは、テストインスタンスが標準計画ドメインからのIPC計画問題であり、その一部は最適な計画のために難解であることだ。 0.64
We seek crisp experimental results, which means close to 100% generalization, or alternatively, crisp explanations of why this is not possible, with logical fixes that restore generalization in certain cases. 私たちは、100%一般化に近い、あるいは、あるケースで一般化を回復する論理的な修正によって、なぜそれができないのかを簡潔に説明できる、鮮明な実験結果を求めます。 0.64
Data. The states in the training and validation sets are obtaining by fully expanding selected instances from the initial state through a breadth-first search. データ。 トレーニングおよび検証セットの状態は、初期状態から幅優先探索によって選択されたインスタンスを完全に拡張することで得られる。 0.75
For each reachable state, the length of the shortest path to a goal state is computed. 到達可能な各状態に対して、目標状態までの最短経路の長さを算出する。 0.77
For instances with large state spaces we keep up to 40, 000 sampled reachable states to avoid large instances from dominating the training set. 大きな状態空間を持つインスタンスでは、トレーニングセットが支配されるのを避けるために、最大40,000のサンプルアクセス可能な状態を保持します。 0.64
The actual size of the instances used 使用するインスタンスの実際のサイズ 0.76
英語(論文から抽出)日本語訳スコア
Domain Blocks Delivery Gripper Logistics Miconic Reward Spanner* Visitall ドメインブロック 配送グリッパー ロジスティクス miconic reward spanner* visitall 0.67
Train [4, 7] [12, 20] [8, 12] [5, 18] [3, 18] [9, 100] [6, 33] [4, 16] Train [4, 7] [12, 20] [8, 12] [5, 18] [3, 18] [9, 100] [6, 33] [4, 16] 0.43
Validation [8, 8] [28, 28] [14, 14] [13, 16] [18, 18] [100, 100] [27, 30] [16, 16] 検証 [8, 8] [28, 28] [14, 14] [13, 16] [18, 18] [100, 100] [27, 30] [16, 16] 0.55
Test [9, 17] [29, 85] [16, 46] [15, 37] [21, 90] [225, 625] [22, 320] [25, 121] Test [9, 17] [29, 85] [16, 46] [15, 37] [21, 90] [225, 625] [22, 320] [25, 121] 0.42
Table 1: Instance sizes used training, validation, and testing datasets, as measured by the number of objects involved. 表1: インスタンスサイズは、関連するオブジェクトの数で測定されるように、トレーニング、バリデーション、テストデータセットを使用しました。
訳抜け防止モード: 表1:トレーニング、検証、テストデータセットを使用したインスタンスサイズ。 対象物の数によって測定されるように
0.80
E.g., the training set for Blocks consists of IPC instances with a number of blocks between 4 and 7. 例えば、Blocksのトレーニングセットは、4から7までのブロック数を持つIPCインスタンスで構成されている。 0.76
There is no instance that is in more than 1 set (same number of objects, initial state and goal description). 1セット以上のインスタンスはありません(オブジェクトの数、初期状態、目標記述と同じです)。 0.66
in training, validation, and testing are shown in Table 1, measured by the number of objects involved. トレーニングでは、検証とテストがテーブル1に表示され、関連するオブジェクトの数によって測定される。 0.74
In almost all cases, the testing instances are IPC (International Planning Competition) instances. ほとんどすべてのケースにおいて、テストインスタンスはipc(international planning competition)インスタンスです。 0.77
The exception is the domain Spanner*, which is a slight variant of the Spanner domain that does not give rise to dead-end states by allowing the agent to move not just forward but also backward. 例外はドメイン Spanner* であり、これは Spanner ドメインの少しの変種であり、エージェントが単に前進するだけでなく、後方に動くことを許すことで、デッドエンド状態を引き起こすことはない。 0.79
Domains. The domains are those used by Franc`es, Bonet, and Geffner (2021) with the addition of Logistics, and the above modification of Spanner. ドメイン。 これらの領域はFranc`es, Bonet, and Geffner (2021) がロジスティックスを加えて使用したものであり、上述の Spanner の修正である。 0.70
Briefly, Blocks is the standard blocks world. 簡単に言えば、Blocksは標準ブロックの世界だ。 0.68
Delivery is the problem of picking up objects in an empty grid and delivering them one by one to a target cell. デリバリは、空のグリッドでオブジェクトをピックアップし、ターゲットセルにひとつずつ配信する、という問題です。 0.67
Gripper is about moving balls from one room to another with a moving robot that can have more than one gripper. Gripperは、複数のグリッパーを持つ移動ロボットで、ある部屋から別の部屋へボールを移動させることだ。 0.83
Logistics involves trucks and airplanes that move within city locations and across cities, where packages have to be moved from one location to another location, possibly in a different city. ロジスティクスには、トラックや飛行機が都市内や都市を移動し、荷物をある場所から別の場所、おそらく別の都市へ移動させる必要がある。 0.68
Miconic is about controlling an elevator to pick up passengers in different floors to their destination floors. Miconicはエレベーターをコントロールして、さまざまなフロアの乗客を目的地のフロアに連れて行く。 0.65
Rewards is about reaching certain cells in a grid while avoiding others. Rewardsは、他の細胞を避けながらグリッド内の特定の細胞に到達する。 0.64
Spanner is about collecting spanners spread in a one dimensional grid, each one to be used to tighten up a single nut at the other end. spannerは、1次元のグリッドに広がるスパンナーを収集し、もう一方の端で1つのナッツを締めるために使用する。 0.55
Visitall is about visiting all or some cells in an empty grid. ビジターは空のグリッドですべてのセルまたは一部のセルを訪問することです。 0.53
Setup. The hyperparameters k and L in Algorithm 1 are set to 64 and 30, respectively: k is the number of “features” per object; i.e., the size of the real object embedding vectors; and L the number of layers in the GNN (fixed for training and testing). セットアップ。 アルゴリズム1のハイパーパラメータ k と L はそれぞれ 64 と 30 に設定される: k は対象ごとの「特徴」の数、すなわち、実物体の埋め込みベクトルのサイズ、L は GNN の層数(訓練と試験のために固定)である。 0.72
Both hyperparameters affect training speed, memory, and generalization. どちらのハイパーパラメータもトレーニング速度、メモリ、一般化に影響する。 0.57
Hyperparameter L affects how far messages can propagate in the graph, and indeed, the GNN cannot capture shortest paths between two objects if longer than L, even if the existence of paths up to length 2L can be determined. ハイパーパラメータLは、グラフ内のメッセージがどれだけ遠くまで伝播できるかに影響し、実際、GNNは2つのオブジェクト間の最短のパスをLより長ければ捕捉できない。
訳抜け防止モード: ハイパーパラメータlは、グラフ内のメッセージの伝搬率に影響する。 実際、gnnはlよりも長い場合、2つのオブジェクト間の最短経路を捉えることができない。 長さ2lまでの経路の存在を判定することができる。
0.73
The architecture is implemented in PyTorch (Paszke and et al , 2019) and the optimizer Adam (Kingma and Ba, 2015) is used with a learning rate of 0.0002.2 The networks are trained with NVIDIA A100 GPUs for up to 12 hours. アーキテクチャはpytorch(paszke and et al , 2019)で実装され、オプティマイザであるadam(kingma and ba, 2015)は0.002.2の学習レートで使用されている。ネットワークはnvidia a100 gpuで最大12時間トレーニングされる。 0.69
Five models for each domain are trained to ensure that the optimizer did not get stuck in “bad” local minima, and the final model used is the one with 各ドメインの5つのモデルがトレーニングされ、オプティマイザが“悪い”ローカルのミニマで立ち往生しないことが保証される。
訳抜け防止モード: 各ドメインの5つのモデルが訓練されています ローカルの“悪い”ミニマで、オプティマイザが立ち往生しないようにする。 最後のモデルは
0.70
2Code and data: https://doi.org/10.5 281/zenodo.6511809 2コードとデータ: https://doi.org/10.5 281/zenodo.6511809 0.40
the best validation loss (i.e., loss measured on the validation set). 最高の検証損失(すなわち、検証セットで測定された損失)。 0.66
The quality of the plans obtained by following the greedy policy πV for the learned value function V are evaluated in comparison with optimal plans that are computed with the Fast Downward (FD) planner (Helmert, 2006) using the seq-opt-merge-and-sh rink configuration with time and memory outs set to 10 minutes and 64 GB, respectively, on a Ryzen 9 5900X CPU. 学習値関数Vに対する欲求ポリシーπVに従って得られたプランの質を、Ryzen 9 5900X CPU上で、それぞれ10分と64GBに設定されたSeq-opt-merge-and-sh rink構成を用いてFDプランナー(Helmert,2006)で計算された最適プランと比較して評価する。 0.76
8.1 Testing the Greedy Policy πV : Two Modes The greedy policy πV selects the action applicable in a nongoal state s that leads to the child state s(cid:48) with minimum V (s(cid:48)) value (action costs are all assumed to be 1). 8.1 グリーディ政策 πV : 2モード グリーディ政策 πV は、子状態 s(cid:48) に最低 V(s(cid:48)) の値をもたらす非ゴール状態 s(cid:48) に適用されるアクションを選択する(アクションコストはすべて 1 と仮定される)。 0.73
It is common to add “noise” in this selection process by either breaking ties randomly or by choosing the action leading to the best child probabilistically, by soft-mapping the children values V (s(cid:48)) into probabilities that add up to 1. この選択プロセスに「ノイズ」を加えるのは、結合をランダムに割るか、確率的に最良の子供につながるアクションを選択するか、子供値v(s(cid:48))を最大1の確率にソフトマッピングすることで一般的である。 0.71
The addition of “noise” in action selection has the benefit that it helps to avoid cycles in the execution, but at the same time, it blurs the results. アクションの選択に“ノイズ”を追加することは、実行中のサイクルを避けるのに役立つが、同時に結果がぼやけてしまうという利点がある。 0.70
Instead, Table 2 shows (on the right) the results of the executions that follow the deterministic greedy policy πV , which always chooses the action leading to the child s(cid:48) with lowest V (s(cid:48)) value, breaking ties for the first such action encountered. その代わり、表2は、決定論的な欲望ポリシー πv に従う実行の結果(右)を示し、これは、最も低い v (s(cid:48)) の子供 s(cid:48) につながるアクションを常に選択し、最初のそのようなアクションの結合を壊す。 0.76
Since the learned value function is not perfect, we show on the left the execution of the greedy policy but with cycle avoidance; namely, executions keep track of the visited states and deterministically select the first action leading to the best unvisited child (min-V value). 学習した値関数は完璧ではないので、左に欲求ポリシーの実行を示すが、サイクルの回避により、実行は訪問した状態を追跡し、最も目立たない子供(min-V値)につながる最初のアクションを決定的に選択する。 0.76
When there are no such children, the execution fails. そのような子供がいない場合、処刑は失敗する。 0.66
Executions are also terminated when the goal is not reached within 1, 000 steps. 目標が10000ステップ以内に到達しない場合には、実行も終了する。 0.67
8.2 Results: L1 Loss Table 2 shows the results for various experiments: learning using the L1 loss (top), learning using the L0 loss (middle), and learning using states augmented with derived atoms in domains that benefit from C3 features (explained below). 8.2結果: L1損失表2は、L1損失(トップ)を用いた学習、L0損失(中間)を用いた学習、C3特徴の恩恵を受ける領域で派生原子で強化された状態を用いた学習(後述)など、様々な実験の結果を示す。 0.79
Furthermore, the three subtables are divided horizontally in two, according to the way in which the greedy policy πV for the learned value function V is used: with cycle avoidance, on the left, and without cycle avoidance, on the right. さらに、学習値関数Vに対する欲求ポリシーπVが、サイクル回避で、左に、サイクル回避なしで、右に使用される方法に従って、3つのサブテーブルを水平に2分割する。 0.61
We focus now on the top part of the table. 私たちは今、テーブルの上部に集中しています。 0.72
Coverage. The first thing to notice is that in 4 out of the 8 domains considered, Blocks, Delivery, Gripper, and Miconic, the deterministic greedy policy πV for the learned value function V solves all the test instances. カバー。 まず、考慮された8つのドメインのうち4つ、Blocks、Delivery、Gripper、Miconicでは、学習された値関数 V に対する決定論的欲求ポリシー πV が全てのテストインスタンスを解決する。 0.55
This is pretty remarkable as the resulting plans are often long. 結果として得られる計画はしばしば長いので、これは非常に驚くべきことです。 0.56
In Blocks, the average plan length is 790/20 = 39.5 steps, while in Miconic, it is 7, 331/120 = 61.09. ブロックスでは、平均計画長は790/20 = 39.5歩、ミコニックでは7,331/120 = 61.09歩である。 0.65
As we will see, while the plans are not optimal, they are very good, and moreover, in none of these cases, the deterministic greedy policy generates an execution where a state is revisited. このように、計画は最適ではないが、非常に良いものであり、また、これらのどの場合も決定論的欲求政策は、状態を再考する実行を生成する。 0.64
Indeed, if revisits are explicitly excluded by executing the greedy policy while avoiding cycles (left), a fifth domain is solved in full: Visitall. 実際、サイクル(左)を避けながら欲望ポリシーを実行して再訪を明示的に除外すると、第5のドメインは全文で解決される。 0.69
The other three domains are not solved in full in either mode: Logistics, Reward, and Spanner. 他の3つのドメインは、ロジスティクス、報酬、スパンナーというどちらのモードでも完全には解決されない。 0.58
In the case of Logistics, the reason, as we will see, is purely logical: ロジスティクスの場合、私たちの見るとおり、理由は純粋に論理的なものです。 0.72
英語(論文から抽出)日本語訳スコア
Domain (#) Domain (複数形 Domains) 0.75
Coverage (%) L カバー(%) うーん 0.53
PQ = PL / OL (#) PQ = PL / OL (#) 0.42
Deterministic policy πV with cycle avoidance サイクル回避を考慮した決定論的ポリシーπV 0.48
Coverage (%) Deterministic policy πV alone PQ = PL / OL (#) カバー(%) 決定論的ポリシー πV のみ PQ = PL / OL (#) 0.71
L L1 Loss 790 400 1,286 4,635 7,331 1,243 1,545 904 18,134 うーん L1損失 790 400 1,286 4,635 7,331 1,243 1,545 904 18,134 0.37
1.0427 = 440 / 422 (13) 1.0000 = 400 / 400 (15) 1.0000 = 176 / 176 (4) 9.7215 = 3,665 / 377 (15) 1.0052 = 1,170 / 1,164 (35) 1.2306 = 1,062 / 863 (10) 1.0000 = 1,545 / 1,545 (30) 1.0183 = 556 / 546 (10) 1.6410 = 9,014 / 5,493 (132) 1.0427 = 440 / 422 (13) 1.0000 = 400 / 400 (15) 1.0000 = 176 / 176 (4) 9.7215 = 3,665 / 377 (15) 1.0052 = 1,170 / 1,164 (35) 1.2306 = 1,062 / 863 (10) 1.0000 = 1,545 / 1,545 (30) 1.0183 = 556 / 546 (10) 1.6410 = 9,014 / 5,493 (132) 0.40
20 (100%) 15 (100%) 16 (100%) 0 (0%) 120 (100%) 3 (20%) 24 (58%) 11 (78%) 209 (77%) 20 (100%) 15 (100%) 16 (100%) 0 (0%) 120 (100%) 3 (20%) 24 (58%) 11 (78%) 209 (77%) 0.42
L0 Loss 790 404 1,286 L0損失 790 404 1,286 0.56
1.0427 = 440 / 422 (13) 1.0100 = 404 / 400 (15) 1.0000 = 176 / 176 (4) 1.0427 = 440 / 422 (13) 1.0100 = 404 / 400 (15) 1.0000 = 176 / 176 (4) 0.47
0 — 7,331 237 940 631 11,619 0 — 7,331 237 940 631 11,619 0.39
1.0052 = 1,170 / 1,164 (35) 1.1232 = 237 / 211 (3) 1.0000 = 940 / 940 (24) 1.0107 = 471 / 466 (9) 1.0156 = 3,838 / 3,779 (103) 1.0052 = 1,170 / 1,164 (35) 1.1232 = 237 / 211 (3) 1.0000 = 940 / 940 (24) 1.0107 = 471 / 466 (9) 1.0156 = 3,838 / 3,779 (103) 0.41
Blocks (20) Delivery (15) Gripper (16) Logistics (28) Miconic (120) Reward (15) Spanner*-30 (41) Visitall (14) Total (269) ブロック (20) 配送 (15) グリッパー (16) ロジスティックス (28) マイコニック (120) リワード (15) スパンナー*-30 (41) ビジタール (14) トータル (269) 0.70
Blocks (20) Delivery (15) Gripper (16) Logistics (28) Miconic (120) Reward (15) Spanner*-30 (41) Visitall (14) Total (269) ブロック (20) 配送 (15) グリッパー (16) ロジスティックス (28) マイコニック (120) リワード (15) スパンナー*-30 (41) ビジタール (14) トータル (269) 0.70
20 (100%) 15 (100%) 16 (100%) 17 (60%) 120 (100%) 11 (73%) 30 (73%) 14 (100%) 243 (90%) 20 (100%) 15 (100%) 16 (100%) 17 (60%) 120 (100%) 11 (73%) 30 (73%) 14 (100%) 243 (90%) 0.43
0 (0%) 12 (80%) 16 (100%) 1 (3%) 120 (100%) 12 (80%) 24 (58%) 14 (100%) 199 (73%) 0 (0%) 12 (80%) 16 (100%) 1 (3%) 120 (100%) 12 (80%) 24 (58%) 14 (100%) 199 (73%) 0.43
0 — 278 1,288 134 7,758 1,362 1,221 838 12,879 0 — 278 1,288 134 7,758 1,362 1,221 838 12,879 0.35
1.0000 = 278 / 278 (12) 1.0000 = 176 / 176 (4) 16.7500 = 134 / 8 (1) 1.0241 = 1,192 / 1,164 (35) 1.1226 = 861 / 767 (9) 1.0374 = 1,221 / 1,177 (24) 1.0073 = 550 / 546 (10) 1.0719 = 4,412 / 4,116 (95) 1.0000 = 278 / 278 (12) 1.0000 = 176 / 176 (4) 16.7500 = 134 / 8 (1) 1.0241 = 1,192 / 1,164 (35) 1.1226 = 861 / 767 (9) 1.0374 = 1,221 / 1,177 (24) 1.0073 = 550 / 546 (10) 1.0719 = 4,412 / 4,116 (95) 0.41
Logistics-atoms (28) Spanner*-10 (36) Spanner*-atoms-5 (36) Spanner*-atoms-2 (36) Total (136) ロジスティックス原子(28) Spanner*-10(36) Spanner*-atoms-5(36) Spanner*-atoms-2(36) Total(136) 0.87
28 (100%) 12 (33%) 31 (86%) 36 (100%) 107 (78%) 28 (100%) 12 (33%) 31 (86%) 36 (100%) 107 (78%) 0.42
8,147 557 1,370 1,606 11,680 8,147 557 1,370 1,606 11,680 0.25
5.5711 = 2,546 / 457 (17) 1.0000 = 557 / 557 (12) 1.0000 = 1,112 / 1,112 (27) 1.0000 = 1,348 / 1,348 (32) 1.6013 = 5,563 / 3,474 (88) 5.5711 = 2,546 / 457 (17) 1.0000 = 557 / 557 (12) 1.0000 = 1,112 / 1,112 (27) 1.0000 = 1,348 / 1,348 (32) 1.6013 = 5,563 / 3,474 (88) 0.37
Derived Atoms (L1 Loss) 派生原子(L1損失) 0.83
0 (0%) 12 (80%) 12 (75%) 0 (0%) 108 (90%) 7 (46%) 14 (34%) 12 (85%) 165 (61%) 0 (0%) 12 (80%) 12 (75%) 0 (0%) 108 (90%) 7 (46%) 14 (34%) 12 (85%) 165 (61%) 0.42
4 (14%) 8 (22%) 28 (77%) 36 (100%) 76 (55%) 4 (14%) 8 (22%) 28 (77%) 36 (100%) 76 (55%) 0.42
278 816 1.0000 = 278 / 278 (12) 1.0000 = 176 / 176 (4) 278 816 1.0000 = 278 / 278 (12) 1.0000 = 176 / 176 (4) 0.45
0 — 0 — 6,438 661 475 664 9,332 0 — 0 — 6,438 661 475 664 9,332 0.40
1.0000 = 1,084 / 1,084 (33) 1.0285 = 505 / 491 (6) 1.0000 = 475 / 475 (14) 1.0073 = 550 / 546 (10) 1.0059 = 3,068 / 3,050 (79) 1.0000 = 1,084 / 1,084 (33) 1.0285 = 505 / 491 (6) 1.0000 = 475 / 475 (14) 1.0073 = 550 / 546 (10) 1.0059 = 3,068 / 3,050 (79) 0.41
88 373 1,190 1,606 3,257 88 373 1,190 1,606 3,257 0.29
1.0353 = 88 / 85 (4) 1.0000 = 373 / 373 (8) 1.0000 = 996 / 996 (25) 1.0000 = 1,348 / 1,348 (32) 1.0011 = 2,805 / 2,802 (69) 1.0353 = 88 / 85 (4) 1.0000 = 373 / 373 (8) 1.0000 = 996 / 996 (25) 1.0000 = 1,348 / 1,348 (32) 1.0011 = 2,805 / 2,802 (69) 0.41
Table 2: Performance of the deterministic greedy policy πV for the learned value function V when executed with cycle avoidance (left) and without (right). 表2: サイクル回避(左)と無(右)で実行される場合、学習値関数vに対する決定論的欲欲ポリシーπvの性能。 0.80
Three subtables shown: results when using the L1 loss (top), results when using the L0 loss (middle), and results using L1 loss when states are extended with derived atoms (encoding role compositions and transitive closures). 示される3つのサブテーブルは、l1損失(top)を使用する場合、l0損失(ミドル)を使用する場合、および派生原子(エンコードロール組成とトランジットクロージャ)で状態が拡張された場合のl1損失(l1損失)である。
訳抜け防止モード: 示す3つのサブテーブル : L1損失(トップ)を用いた結果 L0損失(ミドル)とL1損失を用いた結果 状態は、派生した原子(役割組成と遷移的閉包をコードする)で拡張される。
0.82
The domains are shown on the left with the number of instances tested in each. それぞれのドメインは、それぞれでテストされたインスタンス数で左に表示されます。 0.72
Coverage is the number of solved problems. カバレッジは解決された問題の数です。 0.67
L is the sum of the solution lengths over the test instances solved by the learned policy. Lは、学習されたポリシーによって解決されたテストインスタンスの解長の和である。 0.63
PQ is a measure of overall plan quality given by the ratio of the sum of the plan lengths found by the policy (PL) and the optimal plan lengths (OL) found by FD, over the instances solved by both within the time and memory limits (number of problems solved by FD shown after OL in parenthesis). PQは、ポリシー(PL)とFDによって発見された最適計画期間(OL)の合計の合計から得られる全体計画品質の尺度である。
訳抜け防止モード: PQは、政策(PL)によって発見された計画の長さの合計の合計によって与えられる全体計画品質の尺度である。 最適計画長 (OL) はFDによって発見された。 時間とメモリ制限の両方で解決されたインスタンス(括弧内のOL後にFDによって解決された多くの問題)にまたがる。
0.73
given the domain representation of Logistics, the feature expressing that a package is in a location or in a city, while possibly within a vehicle, involves the composition of two or three binary relations, requiring three variables, which is not possible in C2. ロジスティクスのドメイン表現を考えると、パッケージが場所または都市内にあることを表す特徴は、おそらく車両内で、c2では不可能である3つの変数を必要とする2つまたは3つのバイナリ関係の合成を含む。 0.77
We address this expressive limitation of GNNs below by adding suitable “derived” atoms to the state that bypass the need for such compositions. 以下に示すようなGNNの表現的制限に対処するために、このような組成の必要性を回避した状態に適切な“起源”原子を加える。 0.60
The limitations observed in Reward and Spanner are not logical: these two domains, as others in the list, require the computation of distances to determine in which direction to move (e g , to the nearest reward or right exit). Reward と Spanner で観測される制限は論理的ではない: この2つの領域は、リストにある他の領域と同様に、どの方向に移動するかを決定するために距離の計算を必要とする(例えば、最も近い報酬や右出口)。 0.70
Yet GNNs cannot compute distances that exceed their number of layers L. Actually, there are other domains solved in full that require the computation of distances, but the magnitude of the distances needed in the test set does not defy these bounds. しかし、GNNは層数 L を超える距離を計算できない。実際には、距離の計算を必要とする他の領域が完全に解決されているが、テストセットで必要とされる距離の大きさは、これらの境界を無視しない。 0.73
Indeed, even a simple problem such a clearing a block x may be found to be unsolvable by the learned policy if the number of blocks 実際、ブロック x のクリア化のような単純な問題でさえ、ブロックの数があれば、学習されたポリシーでは解決できないことが分かる。
訳抜け防止モード: 実際、ブロック x のクリア化のような単純な問題さえ見つかるかもしれない ブロック数がある場合,学習方針によって解決できない
0.85
above x is much larger than L. Interestingly, this limitation has an easy logical “fix” in some of the domains, where derived atoms capturing the transitive closure of some binary predicates manage to decouple the computation of distances from the number of layers in the GNN. 興味深いことに、この制限はいくつかの領域において容易に論理的な「固定」を持ち、導出原子がいくつかの二項述語の推移的閉包を捉え、GNNの層数から距離の計算を分離する。 0.66
In the domains where these expressive limitations arise, the greedy policy with cycle avoidance does better than the pure greedy policy, as the latter is more likely to be trapped in cycles. これらの表現的な制限が生じる領域では、サイクル回避による欲求政策は純粋な欲求政策よりも優れ、後者はサイクルに閉じ込められる傾向にある。 0.63
Quality. Somewhat surprisingly, the quality of the executions delivered by the models trained with the L1 loss is very close to optimal, as measured with respect to the optimal plans computed by FD. 品質。 やや意外なことに、l1損失で訓練されたモデルによって提供される実行の質は、fdで計算された最適計画に関して測定されるように、最適に近い。 0.53
The only exception is the Logistics domain where plans are up to 10 times longer than optimal, on average. 唯一の例外はロジスティックスドメインであり、計画が平均して最適の最大10倍の長さである。 0.73
These results are surprising not just because the L1 loss does not force the value function V to be optimal, but because optimal planning in several of these domains, certainly Blocks, Miconic, and Logistics, and pos- これらの結果は、L1の損失が値関数 V の最適性を強制しないからではなく、ブロック、ミコニック、ロジスティックス、ポスといったいくつかの領域における最適計画であるからである。 0.73
英語(論文から抽出)日本語訳スコア
sibly in Reward and Visitall as well, is NP-hard (Gupta and Nau, 1992; Helmert, 2001). Reward と Visitall でも同様に NP-hard (Gupta and Nau, 1992; Helmert, 2001) である。 0.85
For example, FD with the given time and memory bounds computes optimal solutions for 35 instances in Miconic comprising a total of 1,164 actions, while the sum of execution lengths for the learned, greedy policy πV with or without cycle avoidance on the same 35 instances is 1,170. 例えば、与えられた時間とメモリ境界を持つfdは、合計1,164のアクションを含むミコニックの35インスタンスの最適解を計算し、同じ35インスタンスにおけるサイクル回避の有無にかかわらず学習された欲欲なポリシーπvの実行長さの合計は1,170である。
訳抜け防止モード: 例えば、与えられた時間とメモリ境界を持つFDは、合計1,164アクションからなるミコニックの35のインスタンスに対して最適解を計算する。 学習したgreedy Policy πV の実行長の合計は 同じ35のインスタンスでは サイクル回避なしで1,170です
0.80
Indeed, the execution lengths that follow from the learned value function do not exceed the optimal plan lengths in more than 12% with the exception of Logistics. 実際、学習値関数から従う実行長さはロジスティクスを除いて12%以上で最適な計画長を超えない。 0.61
8.3 L0 Loss: General Policies and RL The differences between the L1 loss (15) and the L0 loss (16) are small but significant. 8.3 L0損失:一般ポリシとRL L1損失(15)とL0損失(16)の差は小さいが有意である。 0.88
Zero loss for L0 arises just when the learned V function has zero Bellman error over the training set; i.e. when V (s) = 1 + mins(cid:48)∈N (s) V (s(cid:48)) for the possible children s(cid:48) of s, and thus when V is the optimal cost function V ∗. L0 のゼロ損失は、学習された V 関数がトレーニングセット上でゼロベルマン誤差を持つとき、すなわち s の可能な子供 s(cid:48) に対して V (s) = 1 + mins(cid:48)∂N (s) V (s(cid:48)) となるとき、V が最適コスト関数 V ∗ であるときに発生する。 0.88
Zero loss for L1, on the other hand, arises just when the learned V function is such that V (s) ≥ 1 + mins(cid:48)∈N (s) V (s(cid:48)). 一方、L1 に対するゼロ損失は、学習された V 函数が V (s) ≥ 1 + mins(cid:48) ⋅N (s) V (s(cid:48)) であるようなときに生じる。 0.90
Thus, zero L0 loss implies zero L1 loss, but not the other way around, as the L1 loss captures just one half of Bellman’s optimality equation. したがって、l0 の損失は 0 の l1 の損失を意味するが、l1 の損失はベルマンの最適方程式のわずか半分を占めるため、その逆ではない。 0.70
Provided that only the goal states have zero value and that nongoal states have positive values, one can use a value function V with zero L1 loss to solve problems greedily by always moving to the best child (min V ). 目標状態のみがゼロで、非ゴール状態が正の値を持つならば、l1損失ゼロの値関数 v を使って、常に最善の子に移動する(min v )ことで、厳格に問題を解決することができる。 0.75
On the other hand, a value function V with zero L0 loss can be used in the same manner to solve problems greedily and optimally. 一方、L0損失がゼロの値関数Vを同様に使用して、問題を丁寧かつ最適に解くことができる。 0.74
The difference between solving a class of problems optimally or suboptimally is crucial in domains where optimal planning is NP-hard. 最適計画がnpハードな領域において、最適あるいは下位最適化の問題のクラスを解く場合の違いは不可欠である。 0.66
Such domains, like Blocks, often admit general policies but no general policies that are optimal. ブロックのようなそのようなドメインは、しばしば一般的なポリシーを認めるが、最適である一般的なポリシーは認めない。 0.57
So the question arises as to whether the minimization of the L0 loss leads to greedy policies πV that are as good as, or better than those obtained by minimization of the L1 loss. したがって、L0損失の最小化が、L1損失の最小化によって得られるものよりも良い、あるいは良い、欲求的なポリシー πV をもたらすかどうかが問題となる。 0.77
The question is particularly relevant because the standard methods for learning policies without supervision are usually based on reinforcement learning, which in their valuebased variant (as opposed to the policy gradient version) are based on the minimization of Bellman error (Sutton and Barto, 2018). 特に問題となるのは、政策を監督せずに学習する標準的な方法は、通常強化学習に基づいており、その価値に基づく変種(政策勾配版とは対照的)はベルマン誤差の最小化に基づいている(Sutton and Barto, 2018)。 0.79
The expectation is that the minimization of L0 loss will not be as good. l0損失の最小化はそれほど良くないと予想されている。 0.76
Indeed, the value functions V that yield greedy policies πV that generalize correctly over domains that are intractable for optimal planning are unlikely to yield zero L0 loss. 実際、最適計画に難渋する領域に対して正しく一般化する欲求ポリシー πV をもたらす値関数 V は、ゼロ L0 の損失を生じない。 0.76
The middle part of Table 2 shows the results of the greedy policies πV for value functions V learned by minimizing L0 loss instead of L1. 表2の中央は、L1の代わりにL0損失を最小限にして学習した値関数 V に対する欲求ポリシー πV の結果を示している。 0.70
The L0-based policies are observed to perform worse than the L1-based policies. L0ベースのポリシは、L1ベースのポリシよりもパフォーマンスが悪くなる。 0.45
The extreme case is precisely in Blocks where coverage drops from 100% to 0% when using the greedy policy with cycle avoidance and also without. 極端なケースは正確にはBlocksで、サイクル回避および非サイクル回避によるgreedyポリシーを使用する場合、カバレッジが100%から0%に低下する。 0.62
A big difference also surfaces in Logistics where coverage drops from 60% to 3% with cycle avoidance (otherwise no instances are solved). 大きな違いは、サイクル回避でカバレッジが60%から3%に低下するロジスティクス(その他、インスタンスが解決されない)にも表れている。 0.61
For the other domains, the drops are not as drastic, yet the greedy policy with no cycle avoidance based on L1 solves four domains fully (100% coverage) while the same policy based on L0 does not solve fully any single domain. 他のドメインでは、ドロップはそれほど劇的なものではないが、l1に基づくサイクル回避のない欲望のポリシーは4つのドメインを完全に解決する(100%のカバレッジ)が、l0に基づく同じポリシーは1つのドメインを完全には解決しない。 0.68
The L0-policies, however, do slightly better in two of the domains where the L1-policy しかし、L1-policyの2つの領域において、L0-policiesはわずかに改善する。 0.65
is not good: Reward and Visitall where coverage increases from 20% and 78% to 46% and 86%. 報酬と訪問者は、カバレッジが20%から78%から46%、そして86%に増加する。
訳抜け防止モード: is not good : Reward and Visitall where カバー率は20%から78%に増加し、46%と86%となった。
0.84
As expected, the lower coverage of L0-policies goes along with executions whose lengths are better overall. 予想通り、L0ポリティシの低いカバレッジは、全体的な長さがよい実行と共に行われる。 0.57
With cycle avoidance, the performance resulting from the two loss functions is closer, with the aforementioned exceptions. サイクル回避では、前述の例外を除いて、2つの損失関数によるパフォーマンスがより近い。 0.74
In general, the ability of the learned value functions V to yield greedy policies that generalize can be predicted from the corresponding loss on the validation set. 一般に、学習された値関数Vが、検証セット上の対応する損失から一般化する欲求ポリシーを得られる能力を予測することができる。 0.73
In both Blocks and Logistics, the validation loss after L1 training is close to zero, but significantly higher than zero after L0 training. ブロックとロジスティックスの両方では、L1トレーニング後の検証損失は0に近いが、L0トレーニング後の検証損失は0よりもかなり高い。 0.69
8.4 Derived Atoms: Beyond C2 The failure of the learned policies to generalize fully when using the L1 loss function in domains such as Logistics, Reward, and Spanner* can be traced to two limitations. 8.4派生原子: c2を超えて、ロジスティクス、報酬、スパンナー*のようなドメインでl1損失関数を使用する場合、学習したポリシーが完全に一般化できないことは、2つの制限にさかのぼることができる。
訳抜け防止モード: 8.4 派生原子 : C2を超えて : 学習方針の失敗が完全に一般化する Logistics、Reward、SpannerなどのドメインでL1損失関数を使用する 2つの限界に辿り着くことができます
0.82
Logistics requires features that cannot be expressed in C2 and which therefore are not captured by GNNs (Barcel´o et al , 2020; Grohe, 2020). ロジスティクスはc2では表現できない特徴を必要とするため、gnnでは捉えられない(barcel ́o et al , 2020; grohe, 2020)。 0.76
Spanner*, like Reward and other domains, involves the computation of distances in the test instances that exceed the number of layers used in the GNN. spanner*は、報酬やその他のドメインと同様に、gnnで使用されるレイヤー数を超えるテストインスタンスにおける距離の計算を伴う。 0.74
The bottom part of Table 2 shows the results that are obtained in Logistics and Spanner* when these limitations are addressed logically by extending the states (in training, validation, and testing) with suitable derived atoms and predicates, a facility provided by PDDL (Thi´ebaux et al , 2005; Haslum et al , 2019a). 表2の下部は、これらの制限が論理的に対処されたときに、PDDL(Thi ́ebaux et al , 2005; Haslum et al , 2019a)によって提供される、適切な派生原子と述語で状態(訓練、検証、試験)を拡張することによって得られる結果を示している。 0.70
For example, one can extend the states in Blocks with the derived predicate above that corresponds to the transitive closure of the domain predicate on, so that every state s contains additional atoms above(x, y) when block x is above block y in s. 例えば、任意の状態 s がブロック x が s のブロック y 以上の場合、(x, y) 以上の原子を含むように、ドメイン述語 on の推移的閉包に対応する上記の導出述語でブロック内の状態を拡張することができる。 0.85
In Logistics, four derived predicates are added, following the four role compositions used by Franc`es, Corrˆea, Geissmann, and Pommerening (2019) to obtain a general value function. ロジスティクスでは、フランケス、コレーア、ガイスマン、ポンメニング(2019年)が一般価値関数を得るために用いた4つのロール構成に従って、4つの派生述語が追加される。
訳抜け防止モード: ロジスティックスでは、Franc`esが使用する4つの役割構成に従って、4つの派生述語が追加される。 Corrzea, Geissmann, Pommerening (2019) 一般的な値関数を得るのです
0.67
These role compositions go beyond the expressive capabilities of C2 and GNNs. これらの役割構成は、C2とGNNの表現能力を超える。 0.72
In Logistics, there are binary predicates (roles) to express that a package or truck is at some location (‘at’), to express that a package is inside a truck or airplane (‘in’), and to express that a location is in a city (‘in-city’). ロジスティックスでは、パッケージやトラックがどこかの場所(「at」)にあること、パッケージがトラックや飛行機の中にあること(「in」)、そして、ある場所が都市にあること(「in-city」)を表す二項述語(「loles」)が存在する。 0.62
Additionally, as done in previous works, “goal versions” of these predicates (indeed, of all predicates) denoted by ‘at@’, ‘in@’ and ‘in-city@’ whose denotation is provided by the goal descriptions are added to the domain. さらに、前述のように、これらの述語(すべての述語)の「ゴールバージョン」は、「at@」、「in@」、「in-city@」と表記され、その表記は、ゴール記述によって提供される。 0.60
The Logistics domain is extended with the following role compositions from Franc`es, Corrˆea, Geissmann, and Pommerening (2019): – ‘at◦in-city’ and ‘at@◦in-city’ that tells the city where a ロジスティクスの領域は、フランケス、コレーア、ガイスマン、ポンメニング(2019年)の「アトシン・シティ」と「アト@ジャイン・シティ」の2つの役割構成で拡張され、都市がどこにあるかを示す。
訳抜け防止モード: ロジスティックス領域は、Franc`esの以下のロール構成で拡張される。 Corr'ea, Geissmann, and Pommerening (2019 ) : ‘ at ~ in - city ' at@ s in - City ’ は、ある都市を示す。
0.71
package is located, either in the current or goal state, パッケージは現在の状態または目標状態にある。 0.67
– ‘in◦at’ that tells the location of a package that is inside a 内部にあるパッケージの位置を示す'in/at' 0.54
truck, and – ‘in◦at◦in-city’ that tells the city where a package that is トラックと -市に荷物がどこにあるかを伝える「都市」。 0.58
inside a truck is located. トラックの中にあります。 0.58
In Spanner*, a single derived predicate is added which is the transitive closure of the ‘link’ predicate. spanner*では、‘link’述語の推移的閉包である単一の派生述語が追加される。 0.61
Provided with the new link+ predicate, the required distances in Spanner* are not restricted by the number of layers L in the GNN and can be computed in a single layer, as the distance to the exit 新しいlink+述語によって提供されるSpanner*の所要距離は、GNNの層数Lに制限されず、出口までの距離として単一の層で計算できる。 0.66
英語(論文から抽出)日本語訳スコア
location equals the number of locations to the right of the current location c; i.e., dist2exit = |{x| link+(c, x)}|. 位置は現在の位置 c の右にある位置の数と等しく、つまりdist2exit = |{x| link+(c, x)}| である。 0.87
The results obtained by learning from states with these derived predicates in Logistics and Spanner* are shown at the bottom of Table 2. ロジスティックスとスパンナーにおけるこれらの派生述語を持つ状態から得られた結果が表2の下部に示されている。 0.74
In Logistics, the simple addition of the atoms makes the coverage jump from from 0% to 14% for the greedy policy alone, and from 60% to 100% for the greedy policy with cycle avoidance. 物流において、原子の単純な付加により、カバレッジは、欲欲政策だけで0%から14%に上昇し、サイクル回避を伴う欲欲政策では60%から100%に上昇する。 0.62
For Spanner*, three rows are shown: the first is for the domain without derived atoms but with two modifications that preclude comparison with the Spanner* results reported previously in the same table. Spanner* について、3つの行が示される: 1つは、派生した原子を持たない領域を表すが、2つの修正により、以前同じ表で報告された Spanner* の結果との比較を妨げている。 0.59
The first is that the test instances involving more than 100 locations have been replaced by smaller instances with up to 45 and 50 locations. ひとつは、100以上のロケーションを含むテストインスタンスが、45から50までのロケーションを持つ小さなインスタンスに置き換えられたことだ。 0.74
The second is that the number of layers L in the GNN are reduced from 30 to 10. 第2に、GNN内の層Lの数が30から10に減少する。 0.66
These modifications provide a more convenient baseline for evaluating the impact of derived atoms: with 100 locations, there are 10, 000 = 1002 extra derived atoms in the states, that make training and testing much slower (this is a weakness of adding derived atoms). これらの修正は、導出原子の影響を評価するためのより便利なベースラインを提供する: 100の場所において、100,000 = 1002の余分な導出原子が存在し、訓練と試験をはるかに遅くする(これは導出原子を追加する弱みである)。 0.74
It is because of these modifications, and in particular from the reduction in the value of L from 30 to 10, that the coverage of the learned policies in the modified Spanner* setting is reduced to 33% and 22% percent (first of the last three rows in the table). これらの修正により、特にLの値が30から10に下げられ、修正されたSpanner*設定における学習ポリシーのカバレッジが33%と22%に削減された(表の最後の3行のうちの1番目)。 0.68
This number however increases to 86% and 77% when the derived atoms are included, even if the number of GNN layers is reduced from 10 to 5 (second of the last three rows in table). しかし、gnn層数を10から5に減らしても、導出原子を含むと86%と77%に増加する(表の最後の3行のうち2番目)。 0.56
Moreover, coverage increases further to 100% when the derived atoms are included and the number of GNN layers is reduced further to just 2 (last row in the table). さらに、導出した原子を含むとカバレッジはさらに100%増加し、さらにGNN層の数は2(テーブルの最後の行)にまで減少する。 0.71
This additional increase in coverage is likely due by reduced overfitting as the number of layers L is reduced from 5 to 2. この追加のカバレッジの増加は、レイヤLの数を5から2に減らすため、オーバーフィッティングの削減による可能性が高い。
訳抜け防止モード: この追加のカバレッジの増加は、オーバーフィッティングの削減による可能性がある。 層数Lを5から2に減らす。
0.71
9 Conclusions We have considered the problem of learning generalized policies for classical planning domains from small instances represented in lifted STRIPS. 9 結論 我々は,STIPSで表される小さな事例から,古典的計画領域の一般政策を学習する問題を考察した。 0.72
Unlike previous work that makes uses of a predefined pool of features based on description logic and combinatorial solvers, we have followed the GNN approach for learning general policies advanced by St˚ahlberg, Bonet, and Geffner (2022) that exploits the relation between C2 features and those that can be computed by GNNs. 記述論理と組合せ解法に基づく機能プールを利用する以前の研究とは異なり、我々は、C2特徴とGNNによって計算できるものとの関係を生かした、セント・シャルベルク、ボネット、ゲフナー(2022年)による一般的なポリシーを学ぶためのGNNアプローチに従った。 0.74
However, instead of learning optimal value functions in a supervised manner, we learn non-optimal value functions without supervision. しかし,最適値関数を教師ありの方法で学習する代わりに,非最適値関数を監督なしで学習する。 0.71
For this, the change is technically small, as it affects the loss function and not the GNN architecture, but the consequences are interesting as the new method can be applied to domains that have general policies but no general policies that are optimal. このため、この変更はGNNアーキテクチャではなく損失関数に影響を与えるため技術的には小さいが、新しい手法は一般的なポリシーを持つが、最適の一般的なポリシーを持たない領域に適用できるので興味深い。 0.76
We have shown that 100% generalization is achieved in many such domains, and have discussed and addressed two important additional issues: the limitations of value-based RL methods for computing general policies over domains where optimal planning is intractable, and the limitations of GNNs for capturing general value functions that require non-C2 features. このような領域で100%の一般化が達成されることを示し、最適計画が難解な領域に対する一般ポリシーに対する値ベースRL法の制限と、C2以外の機能を必要とする一般値関数をキャプチャするためのGNNの制限という2つの重要な問題について論じ、対処してきた。 0.68
We have addressed the first limitation by using a novel loss function (L1) different than the more natural loss function L0 associated with value-based RL methods, and the second limitation, by extending planning states with derived atoms. 我々は、値ベースRL法に関連するより自然な損失関数L0とは異なる新しい損失関数L1と、導出原子による計画状態の拡張による第2の制限を用いて、第1の制限に対処した。 0.78
In the future, we would like to make the point about the limitations of RL methods for learning generalized plans, sharper, and to consider the use of recent GNN architectures that compute features beyond C2 (Bevilacqua et al , 2021). では 将来的には、一般化された計画学習のためのRL手法の限界を指摘し、C2以外の機能を計算する最近のGNNアーキテクチャ(Bevilacqua et al , 2021)について検討したい。 0.71
At the same time, we are interested in “domesticating” the use of deep learning engines in the context of planning and representation learning for planning, so that they can be used as alternatives to ASP and Weighted Max-SAT solvers, for avoiding scalability issues and for opening up new possibilities. 同時に、計画のための計画および表現学習の文脈におけるディープラーニングエンジンの使用を「隠蔽」することに興味を持ち、ASPやWeighted Max-SATの解決器の代替として使用できるようにし、スケーラビリティの問題を避け、新たな可能性を開くために使用しています。 0.72
This requires understanding what can be computed with them in a clean way and how. このためには、クリーンな方法で計算できることと方法を理解する必要があります。 0.68
This work is also a step in that direction. この作業は、その方向への一歩でもある。 0.71
Acknowledgments The code framework Tarski (Franc´es et al , 2018) was very useful during this research. 承認 コードフレームワークのTarski(Franc ́es et al , 2018)はこの研究で非常に役立った。 0.66
This research was partially supported by the European Research Council (ERC), Grant No. 885107, and by project TAILOR, Grant No. 952215, both funded by the EU Horizon research and innovation programme. この研究は、欧州研究評議会(erc)の助成金第885107号と、euのホライズン研究計画(英語版)とイノベーション計画(英語版)による助成金第952215号によって部分的に支援された。
訳抜け防止モード: この研究は欧州研究評議会(ECC)によって部分的に支持された。 Grant No. 885107, and by project TAILOR, Grant No. 952215. EU Horizon Research and Innovation Programが出資している。
0.83
This work was partially supported by the Wallenberg AI, Autonomous Systems and Software Program (WASP) funded by the Knut and Alice Wallenberg Foundation. この作業は、KnutとAlice Wallenberg Foundationが出資したWallenberg AI, Autonomous Systems and Software Program (WASP)によって部分的に支援された。 0.79
The computations were enabled by the supercomputing resource Berzelius provided by National Supercomputer Centre at Link¨oping University and the Knut and Alice Wallenberg foundation. 計算は、リンク・ショピング大学のnational supercomputer centreとknut and alice wallenberg foundationが提供する超計算リソースberzeliusによって可能となった。 0.70
References R. Abboud, I. I. Ceylan, M. Grohe, and T. Lukasiewicz. 参考文献 R. Abboud, I. I. Ceylan, M. Grohe, T. Lukasiewicz 0.56
The surprising power of graph neural networks with random node initialization. ランダムノード初期化によるグラフニューラルネットワークの驚くべきパワー。 0.82
In Proc. IJCAI, 2021. procで。 IJCAI、2021年。 0.62
M. Asai. Unsupervised grounding of plannable first-order logic representation from images. M.Asai。 画像からの平面的一階述語論理表現の教師なし接地 0.58
In Proc. ICAPS, 2019. procで。 2019年、ICAPS。 0.68
P. Barcel´o, E. V. Kostylev, M. Monet, J. P´erez, J. Reutter, and J. P. Silva. P. Barcel ́o, E. V. Kostylev, M. Monet, J. P ́erez, J. Reutter, J. P. Silva 0.39
The logical expressiveness of graph neural networks. グラフニューラルネットワークの論理的表現性。 0.77
In ICLR, 2020. ICLR、2020年。 0.72
V. Belle and H. J. Levesque. V. BelleとH.J. Levesque。 0.41
Foundations for generalized planning in unbounded stochastic domains. 非有界確率領域における一般化計画の基礎 0.52
In Proc. KR, pages 380–389, 2016. procで。 KR、2016年380-389頁。 0.62
R. Bellman. Dynamic Programming. R・ベルマン。 動的プログラミング。 0.72
Princeton University Press, 1957. プリンストン大学 1957年出版。 0.51
D. Bertsekas. D. Bertsekas 0.39
Dynamic Programming and Optimal Control, 動的プログラミングと最適制御 0.64
Vols 1 and 2. Athena Scientific, 1995. vols 1と2。 1995年、科学博士。 0.66
B. Bevilacqua, F. Frasca, D. Lim, B. Srinivasan, C. Cai, G. Balamurugan, M. M. Bronstein, and H. Maron. B. Bevilacqua, F. Frasca, D. Lim, B. Srinivasan, C. Cai, G. Balamurugan, M. M. Bronstein, H. Maron 0.46
EquivarXiv preprint ariant subgraph aggregation networks. EquivarXiv プリプリント Ariant サブグラフアグリゲーションネットワーク。 0.67
arXiv:2110.02910, 2021. arXiv:2110.02910, 2021。 0.63
B. Bonet and H. Geffner. B.ボーンとH.ゲフナー。 0.69
Features, projections, and repreIn Proc. 機能、プロジェクション、およびreprein proc。 0.59
IJ- sentation change for generalized planning. IJ 汎用計画のための送信変更。 0.47
CAI, pages 4667–4673, 2018. 第4667-4673頁、2018年。 0.53
B. Bonet and H. Geffner. B.ボーンとH.ゲフナー。 0.69
Learning first-order symbolic representations for planning from the structure of the state space. 状態空間の構造から計画のための一階記号表現を学ぶ。 0.79
In Proc. ECAI, 2020a. procで。 ECAI、2020年。 0.67
B. Bonet and H. Geffner. B.ボーンとH.ゲフナー。 0.69
Qualitative numeric planning: Re- 定性数値計画:再検討 0.80
ductions and complexity. JAIR, 69:923–961, 2020b. 推論と複雑性。 JAIR, 69:923–961, 2020b。 0.54
英語(論文から抽出)日本語訳スコア
B. Bonet and H. Geffner. B.ボーンとH.ゲフナー。 0.69
General policies, representations, and planning width. 一般的な政策、表現、計画幅。 0.72
In Proc. AAAI, pages 11764–11773, 2021. procで。 AAAI, page 11764–11773, 2021。 0.45
B. Bonet, H. Palacios, and H. Geffner. B. Bonet、H. Palacios、H. Geffner。 0.90
Automatic derivation of memoryless policies and finite-state controllers using classical planners. 古典的プランナーを用いたメモリレスポリシと有限状態コントローラの自動導出 0.73
In Proc. ICAPS-09, pages 34–41, 2009. procで。 ICAPS-09、34-41頁。 0.59
B. Bonet, G. Franc`es, and H. Geffner. B. Bonet, G. Franc`es, H. Geffner 0.43
Learning features and abstract actions for computing generalized plans. 汎用的な計画を計算するための学習機能と抽象アクション。 0.65
In Proc. AAAI, pages 2703–2710, 2019. procで。 2019年、2703-2710頁。 0.61
A. Campero, R. Raileanu, H. Kuttler, J. B. Tenenbaum, Learning with In A. Campero, R. Raileanu, H. Kuttler, J. B. Tenenbaum, Learning with In 0.48
T. Rockt¨aschel, and E. Grefenstette. T・ロックとE・グレフェンセット。 0.60
AMIGo: Adversarially motivated intrinsic goals. AMIGo: 本質的な目標を反対に動機付けます。 0.48
ICLR, 2021. iclr、2021年。 0.58
M. Chevalier-Boisvert, D. Bahdanau, S. Lahlou, L. Willems, C. Saharia, T. H. Nguyen, and Y. Bengio. M. Chevalier-Boisvert、D. Bahdanau、S. Lahlou、L. Willems、C. Saharia、T. H. Nguyen、Y. Bengio。
訳抜け防止モード: M. Chevalier - Boisvert, D. Bahdanau, S. Lahlou, L. Willems C. Saharia, T. H. Nguyen, Y. Bengio
0.43
Babyai: A platform to study the sample efficiency of grounded language learning. babyai: 接地型言語学習のサンプル効率を研究するためのプラットフォーム。 0.86
In ICLR, 2019. 2019年、ICLR。 0.66
K. Cobbe, C. Hesse, J. Hilton, and J. Schulman. K. Cobbe、C. Hesse、J. Hilton、J. Schulman。 0.44
Leveraging procedural generation to benchmark reinforcement learning. 強化学習のベンチマークに手続き生成を活用する。 0.58
In Proc. ICML, pages 2048–2056, 2020. procで。 ICML、2048–2056、2020年。 0.62
S. N. Cresswell, T. L. McCluskey, and M. M. West. S. N. Cresswell、T. L. McCluskey、M. M. West。 0.40
Acquiring planning domain models using LOCM. locmを用いた計画ドメインモデル取得。 0.71
The Knowledge Engineering Review, 28(2):195–213, 2013. The Knowledge Engineering Review, 28(2):195–213, 2013 0.46
D. Drexler, J. Seipp, and H. Geffner. D. Drexler、J. Seipp、H. Geffner。 0.44
Expressing and exploiting the common subgoal structure of classical planning In Proc. proc における古典計画の共通部分構造を表現し活用する 0.73
KR, pages 258–268, domains using sketches. kr、258-268ページ、スケッチを用いたドメイン。 0.59
2021. A. Fern, S. Yoon, and R. Givan. 2021. A. Fern, S. Yoon, R. Givan 0.42
Approximate policy iteration with a policy language bias: Solving relational markov decision processes. 政策言語バイアスによる近似的な政策反復:関係性マルコフ決定過程の解決。 0.77
JAIR, 25:75–118, 2006. 2006年、25:75-118頁。 0.56
G. Franc´es, M. Ramirez, and Collaborators. g. franc ́es、m. ramirez、そして協力者。 0.60
Tarski: An https://github.com/ Tarski: https://github.com/ 0.37
AI planning modeling framework. AI計画モデリングフレームワーク。 0.73
aig-upf/tarski, 2018. aig-upf/tarski、2018年。 0.50
G. Franc`es, A. B. Corrˆea, C. Geissmann, and F. Pommerening. G. Franc`es, A. B. Corrzea, C. Geissmann, F. Pommerening 0.43
Generalized potential heuristics for classical planning. 古典計画のための一般化された潜在的なヒューリスティック。 0.47
In Proc. IJCAI, 2019. procで。 IJCAI、2019年。 0.63
G. Franc`es, B. Bonet, and H. Geffner. G. Franc`es, B. Bonet, H. Geffner 0.42
Learning general planning policies from small examples without supervision. 監督なしに小さな例から一般的な計画方針を学ぶ。 0.63
In Proc. AAAI, pages 11801–11808, 2021. procで。 AAAI, page 11801–11808, 2021。 0.45
V. Franc¸ois-Lavet, P. Henderson, R. Islam, M. G. Bellemare, and J. Pineau. v. franc sois-lavet、p. henderson、r. islam、m. g. bellemare、j. pineau。 0.58
An introduction to deep reinforcement learning. Found. 深層強化学習入門 見つかった 0.50
Trends. Mach. Learn. トレンド。 マッハ 学ぶ。 0.53
, 2018. S. Garg, A. Bajpai, and Mausam. , 2018. S. Garg、A. Bajpai、Mausam。 0.40
Symbolic network: generalized neural policies for relational mdps. 記号ネットワーク:リレーショナルmdpsのための一般化されたニューラルポリシー。 0.49
In Proc. ICML, 2020. procで。 ICML、2020年。 0.67
H. Geffner and B. Bonet. H・ゲフナーとB・ボーン。 0.61
A Concise Introduction to Models and Methods for Automated Planning. 自動化計画のためのモデルと方法の簡潔な紹介。 0.82
Morgan & Claypool Publishers, 2013. モーガン&クレイプール、2013年。 0.55
M. Ghallab, D. Nau, and P. Traverso. M. Ghallab、D. Nau、P. Traverso。 0.42
Automated planning and acting. Cambridge U.P., 2016. 自動計画 演技も 2016年、ケンブリッジ大学教授。 0.53
M. Grohe. The logic of graph neural networks. M.Grohe グラフニューラルネットワークの論理。 0.47
In Proc. of the 35th ACM-IEEE Symp. procで。 第35回ACM-IEEEシンプ。 0.59
on Logic in Computer Science, 2020. コンピュータ科学の論理学、2020年。 0.74
E. Groshev, M. Goldstein, A. Tamar, S. Srivastava, and P. Abbeel. E. Groshev、M. Goldstein、A. Tamar、S. Srivastava、P. Abbeel。 0.41
Learning generalized reactive policies using deep neural networks. ディープニューラルネットワークを用いた一般的なリアクティブポリシの学習。 0.63
In Proc. ICAPS, 2018. procで。 2018年、ICAPS。 0.63
N. Gupta and D. S. Nau. N. GuptaとD.S. Nau。 0.41
On the complexity of blocks-world ブロック世界の複雑さについて 0.65
planning. AIJ, 56(2-3):223–254, 1992. 計画を立てる AIJ, 56(2-3): 223–254, 1992。 0.75
W. L. Hamilton. Graph representation learning. w・l・ハミルトン グラフ表現学習。 0.67
Synth. Lect. on Artif. シンス そうです。 芸術について 0.47
Intell. Mach. Learn. インテリ。 マッハ 学ぶ。 0.47
, 14(3):1–159, 2020. , 14(3):1–159, 2020. 0.45
P. Haslum, N. Lipovetzky, D. Magazzeni, and C. Muise. P. Haslum、N. Lipovetzky、D. Magazzeni、C. Muise。 0.42
An introduction to the planning domain definition language. プランニングドメイン定義言語の導入。 0.54
Synth. Lect. on Artif. シンス そうです。 芸術について 0.47
Intell. Mach. Learn. インテリ。 マッハ 学ぶ。 0.47
, 13(2):1–187, 2019a. 13(2):1-187, 2019a。 0.76
P. Haslum, N. Lipovetzky, D. Magazzeni, and C. Muise. P. Haslum、N. Lipovetzky、D. Magazzeni、C. Muise。 0.42
An Introduction to the Planning Domain Definition Language. ドメイン定義言語(Domain Definition Language)の略。 0.65
Morgan & Claypool, 2019b. モーガン&クレイプール、2019年。 0.58
M. Helmert. On the complexity of planning in transportation ヘルマントさん 交通計画の複雑さについて 0.59
domains. In Proc. ドメイン。 procで。 0.57
ECP, 2001. 2001年、ECP。 0.89
M. Helmert. The Fast Downward planning system. ヘルマントさん 迅速な下方計画システム。 0.58
JAIR, 26:191–246, 2006. ジェア 26:191–246, 2006. 0.40
Y. Hu and G. De Giacomo. Y. HuとG. De Giacomo。 0.90
Generalized planning: Synthesizing plans that work for multiple environments. 汎用計画:複数の環境で動作する計画の合成。 0.82
In Proc. IJCAI, pages 918–923, 2011. procで。 IJCAI、918-923頁、2011年。 0.58
R. Karia and S. Srivastava. r. kariaとs. srivastava。 0.64
Learning generalized relational heuristic networks for model-agnostic planning. モデル非依存計画のための一般化リレーショナルヒューリスティックネットワークの学習 0.59
In AAAI, 2021. 2021年、AAAIに入社。 0.66
R. Khardon. Learning action strategies for planning do- r・カードン 計画のための行動戦略の学習- 0.60
mains. AIJ, 113:125–148, 1999. メインス AIJ, 113:125-148, 1999。 0.33
D. P. Kingma and J. Ba. d. p. kingmaとj. ba。 0.73
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
In Y. Bengio and Y. LeCun, editors, Proc. y. bengio と y. lecun の編集者。 0.54
ICLR, 2015. ICLR、2015年。 0.80
M. Mart´ın and H. Geffner. m. mart ́ın と h. geffner。 0.62
Learning generalized policies from planning examples using concept languages. 概念言語を用いた計画例から一般的なポリシーを学ぶ。 0.67
Appl. Intell. アプリ。 インテリ。 0.42
, 20(1):9–19, 2004. , 20(1):9–19, 2004. 0.45
C. Morris, M. Ritzert, M. Fey, W. L. Hamilton, J. E. Lenssen, G. Rattan, and M. Grohe. C. Morris, M. Ritzert, M. Fey, W. L. Hamilton, J. E. Lenssen, G. Rattan, M. Grohe 0.45
Weisfeiler and leman go neural: Higher-order graph neural networks. Weisfeiler と leman go Neural: 高階グラフニューラルネットワーク。 0.72
In Proc. AAAI, pages 4602–4609, 2019. procで。 aaai、2019年4602-4609頁。 0.50
A. Paszke and et al a. paszke と et al 0.42
Pytorch: An imperative style, high-performance deep learning library. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.77
In H. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alch´e Buc, E. Fox, and R. Garnett, editors, Adv. H. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alch ́e Buc, E. Fox, R. Garnett, editors, Adv
訳抜け防止モード: H. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alch ́e Buc E. Fox、R. Garnett、編集者、Adv。
0.91
Neural Inf. Process. 神経障害。 プロセス。 0.62
Syst. 32, pages 8024–8035. シスト。 32頁、8024-8035頁。 0.43
Curran Associates, Inc., 2019. curran associates, inc.、2019年。 0.53
O. Rivlin, T. Hazan, and E. Karpas. O. Rivlin、T. Hazan、E. Karpas。 0.85
Generalized planning with deep reinforcement learning. 深層強化学習による一般化計画 0.80
arXiv preprint arXiv:2005.02305, 2020. arxiv プレプリント arxiv:2005.02305, 2020 0.44
I. D. Rodriguez, B. Bonet, J. Romero, and H. Geffner. I・D・ロドリゲス、B・ボネット、J・ロメロ、H・ゲフナー。 0.49
Learning first-order representations for planning from black-box states: New results. ブラックボックス状態から計画のための一階表現を学ぶ: 新しい結果。 0.62
arXiv preprint arXiv:2105.10830. arXiv preprint arXiv:2105.10830 0.36
In KR, 2021. F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini. 2021年、KR。 f. scarselli、m. gori、a. c. tsoi、m. hagenbuchner、g. monfardini。 0.66
The graph neural network model. グラフニューラルネットワークモデル。 0.61
IEEE transactions on neural networks, 20(1):61–80, 2008. IEEEによるニューラルネットワークのトランザクション、20(1):61–80, 2008 0.77
J. Segovia, S. Jim´enez, and A. Jonsson. J. Segovia、S. Jim ́enez、A. Jonsson。 0.80
Generalized planning with procedural domain control knowledge. 手続き的ドメイン制御知識による一般的な計画。 0.69
In Proc. ICAPS, pages 285–293, 2016. procで。 ICAPS、2016年285-293頁。 0.62
英語(論文から抽出)日本語訳スコア
W. Shen, F. Trevizan, and S. Thi´ebaux. W. Shen, F. Trevizan, S. Thi ́ebaux 0.42
Learning domainindependent planning heuristics with hypergraph networks. ハイパーグラフネットワークによるドメインに依存しない計画ヒューリスティックの学習 0.54
In Proc. ICAPS, volume 30, pages 574–584, 2020. procで。 icaps, volume 30 pp. 574–584, 2020。 0.61
S. Srivastava, N. Immerman, and S. Zilberstein. S. Srivastava、N. Immerman、S. Zilberstein。 0.44
Learning generalized plans using abstract counting. 抽象カウントを用いた一般化計画の学習 0.66
In Proc. AAAI, pages 991–997, 2008. procで。 第991-997頁、2008年。 0.54
S. Srivastava, S. Zilberstein, N. Immerman, and H. Geffner. S. Srivastava、S. Zilberstein、N. Immerman、H. Geffner。 0.43
Qualitative numeric planning. In AAAI, 2011. 定性的数値計画。 2011年、AAAI。 0.71
S. St˚ahlberg, G. Franc`es, and J. Seipp. セント・シャールベルク、G. Franc`es、J. Seipp。 0.67
Learning generalized In Proc. Procで一般化された学習。 0.56
unsolvability heuristics for classical planning. 古典的な計画のための 解決不可能なヒューリスティックス 0.46
IJCAI, volume 4, pages 4175–4181, 2021. 第4巻4175-4181, 2021頁。 0.57
S. St˚ahlberg, B. Bonet, and H. Geffner. S・セント・シャルベルク、B・ボネット、H・ゲフナー。 0.54
Learning general optimal policies with graph neural networks: Expressive power, transparency, and limits. グラフニューラルネットワークによる一般的な最適ポリシーの学習:表現力、透明性、限界。 0.77
In Proc. ICAPS, 2022. procで。 ICAPS、2022年。 0.57
R. S. Sutton and A. G. Barto. R・S・サットンとA・G・バルト。 0.48
Reinforcement learning: An introduction. 強化学習:an 紹介 0.57
MIT Press, 2018. 2018年、MIT出版。 0.53
S. Thi´ebaux, J. Hoffmann, and B. Nebel. S. Thi ́ebaux, J. Hoffmann, B. Nebel 0.41
In defense of pddl pddlの防衛において 0.75
axioms. AIJ, 168(1-2):38–69, 2005. 公理だ aij, 168(1-2):38-69, 2005。 0.57
J. Toenshoff, M. Ritzert, H. Wolf, and M. Grohe. J. Toenshoff、M. Ritzert、H. Wolf、M. Grohe。 0.43
Graph neural networks for maximum constraint satisfaction. 最大制約満足度のためのグラフニューラルネットワーク。 0.71
Front. Artif. フロント。 アーティフ 0.58
Intell. Appl. インテリ。 アプリ。 0.42
, 3:98, 2021. , 3:98, 2021. 0.44
S. Toyer, S. Thi´ebaux, F. Trevizan, and L. Xie. S. Toyer、S. Thi ́ebaux、F. Trevizan、L. Xie。 0.38
Asnets: Deep learning for generalised planning. Asnets: 一般的な計画のためのディープラーニング。 0.63
JAIR, 68:1–68, 2020. 68:1-68、2020年。 0.65
K. Xu, W. Hu, J. Leskovec, and S. Jegelka. K.Xu、W. Hu、J. Leskovec、S. Jegelka。 0.39
How powerful are graph neural networks? いかに強力か グラフニューラルネットワークは? 0.60
In ICLR, 2019. 2019年、ICLR。 0.66
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。