論文の概要: Learning Generalized Policies Without Supervision Using GNNs
- arxiv url: http://arxiv.org/abs/2205.06002v1
- Date: Thu, 12 May 2022 10:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 20:44:28.343143
- Title: Learning Generalized Policies Without Supervision Using GNNs
- Title(参考訳): GNNを用いたスーパービジョンのない一般政策の学習
- Authors: Simon St{\aa}hlberg, Blai Bonet, Hector Geffner
- Abstract要約: グラフニューラルネットワークを用いた古典的計画領域の一般政策学習の問題点を考察する。
我々は,単純で汎用的なGNNアーキテクチャを用いて,鮮明な実験結果を得ることを目的としている。
我々は、GNNの表現力と一階述語論理の$C_2$フラグメントの間に確立された関係を利用する。
- 参考スコア(独自算出の注目度): 20.322992960599255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning generalized policies for classical
planning domains using graph neural networks from small instances represented
in lifted STRIPS. The problem has been considered before but the proposed
neural architectures are complex and the results are often mixed. In this work,
we use a simple and general GNN architecture and aim at obtaining crisp
experimental results and a deeper understanding: either the policy greedy in
the learned value function achieves close to 100% generalization over instances
larger than those used in training, or the failure must be understood, and
possibly fixed, logically. For this, we exploit the relation established
between the expressive power of GNNs and the $C_{2}$ fragment of first-order
logic (namely, FOL with 2 variables and counting quantifiers). We find for
example that domains with general policies that require more expressive
features can be solved with GNNs once the states are extended with suitable
"derived atoms" encoding role compositions and transitive closures that do not
fit into $C_{2}$. The work follows the GNN approach for learning optimal
general policies in a supervised fashion (Stahlberg, Bonet, Geffner, 2022); but
the learned policies are no longer required to be optimal (which expands the
scope, as many planning domains do not have general optimal policies) and are
learned without supervision. Interestingly, value-based reinforcement learning
methods that aim to produce optimal policies, do not always yield policies that
generalize, as the goals of optimality and generality are in conflict in
domains where optimal planning is NP-hard.
- Abstract(参考訳): 本稿では,グラフニューラルネットワークを用いた古典的計画領域の一般化ポリシーの学習問題について考察する。
この問題は以前検討されてきたが、提案されたニューラルアーキテクチャは複雑であり、しばしば混合される。
本研究では、GNNアーキテクチャを用いて、学習値関数におけるポリシー欲求が、トレーニングで使用されるものよりも大きめのインスタンスに対して100%近い一般化を達成するか、あるいは、失敗を理解できなければならず、場合によっては論理的に固定されなければならないか、という、鮮明な実験結果と深い理解を目指している。
このために、gnnの表現力と一階述語論理の$c_{2}$フラグメント(つまり2変数のfolと数量化器)の関係性を利用する。
例えば、より表現力のある機能を必要とする一般的なポリシーを持つドメインは、ロール組成と$c_{2}$に適合しない推移的クロージャを符号化する適切な"派生原子"で拡張されると、gnnで解決できる。
この研究は、監督的な方法で最適な一般政策を学ぶためのGNNアプローチ(Stahlberg, Bonet, Geffner, 2022)に従っているが、学習されたポリシーはもはや最適である必要はなく(多くの計画領域が一般的な最適政策を持っていないため、範囲を広げる)、監督なしで学習される。
興味深いことに、最適な政策を生み出すことを目的とした価値ベースの強化学習手法は、最適性と一般化の目標がnpハードな領域で相反するので、必ずしも一般化する政策をもたらすとは限らない。
- 全文 参考訳へのリンク
関連論文リスト
- Understanding Robust Generalization in Learning Regular Languages [85.95124524975202]
我々は、リカレントニューラルネットワークを用いて正規言語を学習する文脈における堅牢な一般化について研究する。
この問題に対処するための構成戦略を提案する。
構成戦略がエンド・ツー・エンド戦略よりもはるかに優れていることを理論的に証明する。
論文 参考訳(メタデータ) (2022-02-20T02:50:09Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning General Optimal Policies with Graph Neural Networks: Expressive
Power, Transparency, and Limits [18.718037284357834]
我々は、多数のサンプル状態の最適値関数$V*(s)$を近似するために、教師付き方法で単純なGNNを訓練する。
一般的な最適値関数が$C$特徴で定義できるが、より表現力のある$C_3$特徴を必要とする領域では定義できない領域では、一般的な最適ポリシーが得られている。
論文 参考訳(メタデータ) (2021-09-21T12:22:29Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Breaking the Deadly Triad with a Target Network [75.73684613209868]
致命的な三進法は、非政治学習、関数近似、ブートストラップを同時に使用する場合の強化学習アルゴリズムの不安定性を指します。
バイレベル最適化なしで、非制限および変更行動ポリシー下での最初の収束線形$Q$学習アルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Learning General Policies from Small Examples Without Supervision [18.718037284357834]
一般化計画は、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものです。
近年、これらのポリシーは2つのステップで計算可能であることが示されている。まず、定性的数値計画問題(QNP)の形で適切な抽象化をサンプル計画から学習する。
本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T19:44:13Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [91.44514047017954]
平均報酬設定下でのリスクに敏感な深層強化学習を,分散リスク基準を用いて初めて検討する。
ポリシ,ラグランジュ乗算器,フェンチェル双変数を反復的かつ効率的に更新するアクタークリティカルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。