論文の概要: Learning Generalized Policies Without Supervision Using GNNs
- arxiv url: http://arxiv.org/abs/2205.06002v1
- Date: Thu, 12 May 2022 10:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 20:44:28.343143
- Title: Learning Generalized Policies Without Supervision Using GNNs
- Title(参考訳): GNNを用いたスーパービジョンのない一般政策の学習
- Authors: Simon St{\aa}hlberg, Blai Bonet, Hector Geffner
- Abstract要約: グラフニューラルネットワークを用いた古典的計画領域の一般政策学習の問題点を考察する。
我々は,単純で汎用的なGNNアーキテクチャを用いて,鮮明な実験結果を得ることを目的としている。
我々は、GNNの表現力と一階述語論理の$C_2$フラグメントの間に確立された関係を利用する。
- 参考スコア(独自算出の注目度): 20.322992960599255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning generalized policies for classical
planning domains using graph neural networks from small instances represented
in lifted STRIPS. The problem has been considered before but the proposed
neural architectures are complex and the results are often mixed. In this work,
we use a simple and general GNN architecture and aim at obtaining crisp
experimental results and a deeper understanding: either the policy greedy in
the learned value function achieves close to 100% generalization over instances
larger than those used in training, or the failure must be understood, and
possibly fixed, logically. For this, we exploit the relation established
between the expressive power of GNNs and the $C_{2}$ fragment of first-order
logic (namely, FOL with 2 variables and counting quantifiers). We find for
example that domains with general policies that require more expressive
features can be solved with GNNs once the states are extended with suitable
"derived atoms" encoding role compositions and transitive closures that do not
fit into $C_{2}$. The work follows the GNN approach for learning optimal
general policies in a supervised fashion (Stahlberg, Bonet, Geffner, 2022); but
the learned policies are no longer required to be optimal (which expands the
scope, as many planning domains do not have general optimal policies) and are
learned without supervision. Interestingly, value-based reinforcement learning
methods that aim to produce optimal policies, do not always yield policies that
generalize, as the goals of optimality and generality are in conflict in
domains where optimal planning is NP-hard.
- Abstract(参考訳): 本稿では,グラフニューラルネットワークを用いた古典的計画領域の一般化ポリシーの学習問題について考察する。
この問題は以前検討されてきたが、提案されたニューラルアーキテクチャは複雑であり、しばしば混合される。
本研究では、GNNアーキテクチャを用いて、学習値関数におけるポリシー欲求が、トレーニングで使用されるものよりも大きめのインスタンスに対して100%近い一般化を達成するか、あるいは、失敗を理解できなければならず、場合によっては論理的に固定されなければならないか、という、鮮明な実験結果と深い理解を目指している。
このために、gnnの表現力と一階述語論理の$c_{2}$フラグメント(つまり2変数のfolと数量化器)の関係性を利用する。
例えば、より表現力のある機能を必要とする一般的なポリシーを持つドメインは、ロール組成と$c_{2}$に適合しない推移的クロージャを符号化する適切な"派生原子"で拡張されると、gnnで解決できる。
この研究は、監督的な方法で最適な一般政策を学ぶためのGNNアプローチ(Stahlberg, Bonet, Geffner, 2022)に従っているが、学習されたポリシーはもはや最適である必要はなく(多くの計画領域が一般的な最適政策を持っていないため、範囲を広げる)、監督なしで学習される。
興味深いことに、最適な政策を生み出すことを目的とした価値ベースの強化学習手法は、最適性と一般化の目標がnpハードな領域で相反するので、必ずしも一般化する政策をもたらすとは限らない。
関連論文リスト
- Federated Reinforcement Learning with Constraint Heterogeneity [22.79217297480751]
制約不均一性を伴うフェデレーション強化学習(FedRL)問題について検討する。
我々はFedNPGが$tildeO(1/sqrtT)$レートでグローバル収束を実現し、FedPPOはディープニューラルネットワークを用いて複雑な学習タスクを効率的に解決することを示した。
論文 参考訳(メタデータ) (2024-05-06T07:44:50Z) - Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL [23.957148537567146]
本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。
$d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
論文 参考訳(メタデータ) (2023-05-18T15:19:26Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Graph Neural Networks are Inherently Good Generalizers: Insights by
Bridging GNNs and MLPs [71.93227401463199]
本稿では、P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより、GNNの性能向上を本質的な能力に向ける。
PMLPは、トレーニングにおいてはるかに効率的でありながら、GNNと同等(あるいはそれ以上)に動作することを観察する。
論文 参考訳(メタデータ) (2022-12-18T08:17:32Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - PG3: Policy-Guided Planning for Generalized Policy Generation [25.418642034856365]
本稿では,政策探索の指針となるスコア関数に着目した一般政策探索手法について検討する。
このアプローチの背景にある主な考え方は、その候補を評価するためのメカニズムとして、トレーニング問題の計画立案に候補ポリシーを使うべきだということです。
6つのドメインの実証的な結果は、PG3が複数のベースラインよりも効率的かつ効果的に一般化されたポリシーを学習していることを確認する。
論文 参考訳(メタデータ) (2022-04-21T21:59:25Z) - Understanding Robust Generalization in Learning Regular Languages [85.95124524975202]
我々は、リカレントニューラルネットワークを用いて正規言語を学習する文脈における堅牢な一般化について研究する。
この問題に対処するための構成戦略を提案する。
構成戦略がエンド・ツー・エンド戦略よりもはるかに優れていることを理論的に証明する。
論文 参考訳(メタデータ) (2022-02-20T02:50:09Z) - Learning General Optimal Policies with Graph Neural Networks: Expressive
Power, Transparency, and Limits [18.718037284357834]
我々は、多数のサンプル状態の最適値関数$V*(s)$を近似するために、教師付き方法で単純なGNNを訓練する。
一般的な最適値関数が$C$特徴で定義できるが、より表現力のある$C_3$特徴を必要とする領域では定義できない領域では、一般的な最適ポリシーが得られている。
論文 参考訳(メタデータ) (2021-09-21T12:22:29Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Learning General Policies from Small Examples Without Supervision [18.718037284357834]
一般化計画は、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものです。
近年、これらのポリシーは2つのステップで計算可能であることが示されている。まず、定性的数値計画問題(QNP)の形で適切な抽象化をサンプル計画から学習する。
本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T19:44:13Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。