論文の概要: Learning to Ground Existentially Quantified Goals
- arxiv url: http://arxiv.org/abs/2409.20259v1
- Date: Mon, 30 Sep 2024 12:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 11:58:29.520515
- Title: Learning to Ground Existentially Quantified Goals
- Title(参考訳): 既存の定量化目標への学習
- Authors: Martin Funkquist, Simon Ståhlberg, Hector Geffner,
- Abstract要約: 自律的なAIエージェントのためのゴール命令は、オブジェクトがユニークな名前を持っていると仮定することはできない。
これは古典的な計画と一般化された計画の両方において問題を引き起こす。
本研究では,新しい教師付き学習手法を用いて,目標設定問題に対処する。
- 参考スコア(独自算出の注目度): 10.343546104340962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal instructions for autonomous AI agents cannot assume that objects have unique names. Instead, objects in goals must be referred to by providing suitable descriptions. However, this raises problems in both classical planning and generalized planning. The standard approach to handling existentially quantified goals in classical planning involves compiling them into a DNF formula that encodes all possible variable bindings and adding dummy actions to map each DNF term into the new, dummy goal. This preprocessing is exponential in the number of variables. In generalized planning, the problem is different: even if general policies can deal with any initial situation and goal, executing a general policy requires the goal to be grounded to define a value for the policy features. The problem of grounding goals, namely finding the objects to bind the goal variables, is subtle: it is a generalization of classical planning, which is a special case when there are no goal variables to bind, and constraint reasoning, which is a special case when there are no actions. In this work, we address the goal grounding problem with a novel supervised learning approach. A GNN architecture, trained to predict the cost of partially quantified goals over small domain instances is tested on larger instances involving more objects and different quantified goals. The proposed architecture is evaluated experimentally over several planning domains where generalization is tested along several dimensions including the number of goal variables and objects that can bind such variables. The scope of the approach is also discussed in light of the known relationship between GNNs and C2 logics.
- Abstract(参考訳): 自律的なAIエージェントのためのゴール命令は、オブジェクトがユニークな名前を持っていると仮定することはできない。
代わりに、目標のオブジェクトは適切な記述を提供することで参照されなければならない。
しかし、これは古典的な計画と一般化された計画の両方において問題を引き起こす。
古典的計画において存在量化された目標を扱うための標準的なアプローチは、可能なすべての変数バインディングをエンコードするDNF公式にそれらをコンパイルし、各DNF項を新しいダミーゴールにマッピングするダミーアクションを追加することである。
この前処理は変数の数で指数関数的である。
一般的な政策が初期状況や目標に対処できるとしても、一般的な政策を実行するには、政策特徴に対する価値を定義するために目標を根拠にする必要がある。
ゴール変数をバインドするオブジェクトを見つけるという問題は微妙である:これは古典的な計画の一般化であり、ゴール変数がバインドする特別なケースであり、制約推論であり、アクションが存在しない特別なケースである。
本研究では,新しい教師付き学習手法を用いて目標設定問題に対処する。
小さなドメインインスタンスに対して部分的に定量化された目標のコストを予測するために訓練されたGNNアーキテクチャは、より多くのオブジェクトと異なる定量化された目標を含む大きなインスタンスでテストされる。
提案アーキテクチャは、ゴール変数の数や、そのような変数をバインド可能なオブジェクトを含む、いくつかの次元で一般化がテストされる複数の計画領域で実験的に評価される。
このアプローチのスコープは、GNNとC2ロジックの既知の関係を考慮しても議論される。
関連論文リスト
- GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - TarGF: Learning Target Gradient Field for Object Rearrangement [8.49306925839127]
我々は、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから規範的なターゲット分布へオブジェクトを並べ替えることに焦点を当てる。
報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡を実証として収集することは困難である。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
論文 参考訳(メタデータ) (2022-09-02T07:20:34Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Learning Generalized Policies Without Supervision Using GNNs [20.322992960599255]
グラフニューラルネットワークを用いた古典的計画領域の一般政策学習の問題点を考察する。
我々は,単純で汎用的なGNNアーキテクチャを用いて,鮮明な実験結果を得ることを目的としている。
我々は、GNNの表現力と一階述語論理の$C_2$フラグメントの間に確立された関係を利用する。
論文 参考訳(メタデータ) (2022-05-12T10:28:46Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Learning General Policies from Small Examples Without Supervision [18.718037284357834]
一般化計画は、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものです。
近年、これらのポリシーは2つのステップで計算可能であることが示されている。まず、定性的数値計画問題(QNP)の形で適切な抽象化をサンプル計画から学習する。
本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T19:44:13Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。