論文の概要: Safe Learning of PDDL Domains with Conditional Effects -- Extended Version
- arxiv url: http://arxiv.org/abs/2403.15251v1
- Date: Fri, 22 Mar 2024 14:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:59:49.714756
- Title: Safe Learning of PDDL Domains with Conditional Effects -- Extended Version
- Title(参考訳): 条件付きPDDLドメインの安全な学習 -- 拡張バージョン
- Authors: Argaman Mordoch, Enrico Scala, Roni Stern, Brendan Juba,
- Abstract要約: 実験されたほとんどの領域において、条件付きSAMはテストセット問題のほとんどを完璧に解くのに利用できることを示す。
この結果から,Conditional-SAMで学習したアクションモデルを用いて,テストセット問題を完全に解決できることが示唆された。
- 参考スコア(独自算出の注目度): 27.05167679870857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Powerful domain-independent planners have been developed to solve various types of planning problems. These planners often require a model of the acting agent's actions, given in some planning domain description language. Manually designing such an action model is a notoriously challenging task. An alternative is to automatically learn action models from observation. Such an action model is called safe if every plan created with it is consistent with the real, unknown action model. Algorithms for learning such safe action models exist, yet they cannot handle domains with conditional or universal effects, which are common constructs in many planning problems. We prove that learning non-trivial safe action models with conditional effects may require an exponential number of samples. Then, we identify reasonable assumptions under which such learning is tractable and propose SAM Learning of Conditional Effects (Conditional-SAM), the first algorithm capable of doing so. We analyze Conditional-SAM theoretically and evaluate it experimentally. Our results show that the action models learned by Conditional-SAM can be used to solve perfectly most of the test set problems in most of the experimented domains.
- Abstract(参考訳): ドメインに依存しない強力なプランナーが開発され,様々な計画課題が解決されている。
これらのプランナーは、いくつかの計画ドメイン記述言語で与えられる、エージェントのアクションのモデルを必要とすることが多い。
このようなアクションモデルを手作業で設計するのは、非常に難しい作業です。
別の方法は、観察からアクションモデルを自動的に学習することです。
このようなアクションモデルは、実際の未知のアクションモデルと一貫性のあるすべての計画が作成された場合、セーフと呼ばれる。
このような安全な行動モデルを学ぶアルゴリズムは存在するが、多くの計画問題において一般的な構成である条件付きあるいは普遍的な効果を持つ領域を扱うことはできない。
条件付効果を持つ非自明な安全な行動モデルを学ぶには指数的なサンプル数が必要であることを実証する。
そこで我々は,そのような学習が抽出可能な合理的な仮定を特定し,それを実現するアルゴリズムであるSAMラーニング・オブ・コンディショナル・エフェクト(Conditional-SAM)を提案する。
Conditional-SAMを理論的に分析し,実験的に評価する。
この結果から,Conditional-SAMで学習したアクションモデルを用いて,実験された領域のほとんどにおいて,テストセット問題を完全に解決できることが示唆された。
関連論文リスト
- Action Model Learning with Guarantees [5.524804393257921]
本研究では,学習例と整合した仮説の探索としてタスクを解釈するバージョン空間に基づく行動モデル学習の理論を開発する。
我々の理論的発見は、問題のすべての解のコンパクトな表現を維持するオンラインアルゴリズムでインスタンス化される。
論文 参考訳(メタデータ) (2024-04-15T10:01:43Z) - Enhancing Numeric-SAM for Learning with Few Observations [13.41686187754024]
安全行動モデル学習(N-SAM)の強化版を提案する。
N-SAM*は返却されたアクションモデルの安全性を損なうことなくそうする。
ベンチマーク領域の集合に関する実証的研究は、N-SAM* で返される作用モデルが N-SAM で返される作用モデルよりもはるかに多くの問題を解くことができることを示している。
論文 参考訳(メタデータ) (2023-12-17T12:50:10Z) - DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability [58.75803543245372]
タスク・アンド・モーション・プランニング(TAMP)アプローチは多段階自律ロボット操作の計画に適している。
本稿では,TAMPシステムを用いた拡散モデルの構築により,これらの制限を克服することを提案する。
古典的TAMP, 生成モデリング, 潜伏埋め込みの組み合わせによって, 多段階制約に基づく推論が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-22T20:40:24Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Safe Learning of Lifted Action Models [46.65973550325976]
本稿では,古典計画におけるモデルフリー計画問題の解法を提案する。
将来の問題を高い確率で解くのに必要な軌道の数は、ドメインモデルの潜在的サイズにおいて線形である。
論文 参考訳(メタデータ) (2021-07-09T01:24:01Z) - Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models [5.597986898418404]
AI研究では、アクションの計画は通常、アクションの結果として起こる可能性のあることを抽象的に特定するアクションの記述モデルを使用してきた。
計画されたアクションの実行には、リッチな計算制御構造とクローズドループオンライン意思決定を使用する運用モデルが必要である。
我々は、計画と行動の両方が同じ運用モデルを使用する統合された行動計画システムを実装している。
論文 参考訳(メタデータ) (2020-10-02T14:50:05Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。