論文の概要: Differentiable Learning of Lifted Action Schemas for Classical Planning
- arxiv url: http://arxiv.org/abs/2605.13282v1
- Date: Wed, 13 May 2026 09:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.964743
- Title: Differentiable Learning of Lifted Action Schemas for Classical Planning
- Title(参考訳): 古典的計画のためのリフテッド・アクション・スキーマの微分学習
- Authors: Jonas Reiter, Jakob Elias Gebler, Hector Geffner,
- Abstract要約: 我々は、状態が完全に観察されているが、アクション引数が観察されていないトレースからアクションスキーマを学ぶための、新しいニューラルネットワークアーキテクチャを開発した。
我々は、学習したリフトアクションスキーマが地上構造を回復しなければならない様々な計画領域のアーキテクチャを評価する。
- 参考スコア(独自算出の注目度): 6.30853901017231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical planners can effectively solve very large deterministic MDPs represented in STRIPS or PDDL where states are sets of atoms over objects and relations, and lifted action schemas add or delete these atoms. This compact representation yields strong search heuristics and provides an ideal setting for structural generalization, since lifted relations and action schemas give rise to infinitely many domain instances. A central challenge is to learn these relations and action schemas from data, and recent approaches have addressed this problem using different types of observations. In this work, we develop a novel neural network architecture for learning action schemas from traces where states are fully observed but action arguments are unobserved. The problem is a simplification but an important step towards learning planning domains from sequences of images and action labels, and we aim to solve this simplification in a nearly perfect manner. The challenge lies in learning the action schemas while simultaneously identifying the action arguments from observed state changes. Our approach yields a robust differentiable component that can then be integrated into larger neuro-symbolic models. We evaluate the architecture on various planning domains, where the learned lifted action schemas must recover the ground-truth structure. Additionally, we report experiments on robustness to observation noise and on a variation related to slot-based dynamics models.
- Abstract(参考訳): 古典的なプランナーはSTRIPSやPDDLで表される非常に大きな決定論的MDPを効果的に解決することができる。
このコンパクト表現は強い探索ヒューリスティックスをもたらし、リフトされた関係とアクションスキーマが無限に多くのドメインインスタンスをもたらすので、構造的一般化の理想的な設定を提供する。
中心的な課題は、データからこれらの関係とアクションスキーマを学習することであり、近年のアプローチでは、異なるタイプの観測を用いてこの問題に対処している。
本研究では、状態が完全に観察されているが、アクション引数が観測されていないトレースからアクションスキーマを学習するための新しいニューラルネットワークアーキテクチャを開発する。
課題は単純化だが、画像やアクションラベルのシーケンスからプランニングドメインを学ぶための重要なステップであり、この単純化をほぼ完璧に解決することを目指している。
課題は、観察された状態変化からアクション引数を同時に識別しながら、アクションスキーマを学習することにある。
我々のアプローチは、より大きなニューロシンボリックモデルに組み込むことのできる、堅牢な微分可能なコンポーネントを生み出します。
我々は、学習したリフトアクションスキーマが地上構造を回復しなければならない様々な計画領域のアーキテクチャを評価する。
さらに,観測騒音に対するロバスト性およびスロットベース力学モデルに関する変動について実験を行った。
関連論文リスト
- On Sample-Efficient Generalized Planning via Learned Transition Models [8.508980351550003]
一般的な計画は、共通のドメインモデルを共有する計画問題のファミリーにまたがって一般化するソリューション戦略の構築を研究する。
近年のPlanGPTやPlansformerのようなトランスフォーマーベースのプランナーは、直接アクションシーケンス予測として一般的な計画を立てた。
遷移モデル学習問題として一般化計画を定式化し、ニューラルネットワークが後続状態関数 $hat approx $ を明示的に近似し、シンボル状態軌跡をロールアウトして計画を生成する。
論文 参考訳(メタデータ) (2026-02-26T16:13:46Z) - ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning [77.49815848173613]
本研究では,内因性行動とメカニズムの両方について,シンボル的状態表現と因果過程を共同で学習する抽象世界モデルのためのフレームワークを提案する。
シミュレーションされた5つのテーブルトップロボット環境の中で、学習されたモデルは、より多くのオブジェクトとより複雑な目標を持つ保留タスクに一般化した高速な計画を可能にし、幅広いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-30T13:44:34Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Large Trajectory Models are Scalable Motion Predictors and Planners [25.03447801499]
自律走行において、運動予測と計画が不可欠である。
STR(State Transformer)と呼ばれるスケーラブルな軌道モデルを導入する。
STRは、観測、状態、動作を1つの統合シーケンスモデリングタスクにアレンジすることで、動作予測と動作計画の問題を再構成する。
論文 参考訳(メタデータ) (2023-10-30T15:12:41Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。