論文の概要: Safe Learning of Lifted Action Models
- arxiv url: http://arxiv.org/abs/2107.04169v1
- Date: Fri, 9 Jul 2021 01:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:51:10.860684
- Title: Safe Learning of Lifted Action Models
- Title(参考訳): 持ち上げ動作モデルの安全学習
- Authors: Brendan Juba, Hai S. Le, Roni Stern
- Abstract要約: 本稿では,古典計画におけるモデルフリー計画問題の解法を提案する。
将来の問題を高い確率で解くのに必要な軌道の数は、ドメインモデルの潜在的サイズにおいて線形である。
- 参考スコア(独自算出の注目度): 46.65973550325976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating a domain model, even for classical, domain-independent planning, is
a notoriously hard knowledge-engineering task. A natural approach to solve this
problem is to learn a domain model from observations. However, model learning
approaches frequently do not provide safety guarantees: the learned model may
assume actions are applicable when they are not, and may incorrectly capture
actions' effects. This may result in generating plans that will fail when
executed. In some domains such failures are not acceptable, due to the cost of
failure or inability to replan online after failure. In such settings, all
learning must be done offline, based on some observations collected, e.g., by
some other agents or a human. Through this learning, the task is to generate a
plan that is guaranteed to be successful. This is called the model-free
planning problem. Prior work proposed an algorithm for solving the model-free
planning problem in classical planning. However, they were limited to learning
grounded domains, and thus they could not scale. We generalize this prior work
and propose the first safe model-free planning algorithm for lifted domains. We
prove the correctness of our approach, and provide a statistical analysis
showing that the number of trajectories needed to solve future problems with
high probability is linear in the potential size of the domain model. We also
present experiments on twelve IPC domains showing that our approach is able to
learn the real action model in all cases with at most two trajectories.
- Abstract(参考訳): ドメインモデルの作成は、古典的でドメインに依存しない計画であっても、非常に難しい知識エンジニアリングタスクです。
この問題を解決する自然なアプローチは、観察からドメインモデルを学ぶことである。
しかし、モデル学習アプローチは、しばしば安全保証を提供しない: 学習モデルは、アクションが適用されないときに、アクションが適用可能であると仮定し、アクションの効果を誤ってキャプチャする可能性がある。
これは実行時に失敗する計画を生成する可能性がある。
一部のドメインでは、失敗のコストや失敗後のオンライン再計画のできないため、このような失敗は許されない。
このような環境では、他のエージェントや人間によって収集された観察に基づいて、すべての学習をオフラインで行う必要がある。
この学習を通じて、そのタスクは成功を保証された計画を生成することです。
これをモデルフリー計画問題と呼ぶ。
先行研究は、古典計画におけるモデルフリー計画問題の解法を提案した。
しかし、藩の学習に限定されていたため、規模は拡大できなかった。
我々は、この先行研究を一般化し、リフトドドメインに対する最初の安全なモデルフリープランニングアルゴリズムを提案する。
我々は,このアプローチの正確性を証明し,確率の高い将来の問題を解くのに必要な軌道数が,ドメインモデルのポテンシャルサイズにおいて線形であることを示す統計解析を提供する。
また,12のICCドメインに対して,少なくとも2つの軌道で実動作モデルを学習可能であることを示す実験を行った。
関連論文リスト
- Safe Learning of PDDL Domains with Conditional Effects -- Extended Version [27.05167679870857]
実験されたほとんどの領域において、条件付きSAMはテストセット問題のほとんどを完璧に解くのに利用できることを示す。
この結果から,Conditional-SAMで学習したアクションモデルを用いて,テストセット問題を完全に解決できることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T14:49:49Z) - Position Paper: Online Modeling for Offline Planning [2.8326418377665346]
AI計画研究の重要な部分はアクションモデルの表現である。
この分野の成熟にもかかわらず、AI計画技術は研究コミュニティの外ではめったに使われない。
これは、モデリングプロセスが計画プロセスの前に行われ、完了したと仮定されているためである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-07T14:48:08Z) - Goal-Space Planning with Subgoal Models [18.43265820052893]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:59:07Z) - SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning [18.37286885057802]
従来使用できなかった不完全モデルのクラスを利用するための学習と計画を組み合わせたアルゴリズムを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせたものだ。
論文 参考訳(メタデータ) (2022-03-09T22:55:53Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Domain Concretization from Examples: Addressing Missing Domain Knowledge
via Robust Planning [5.051046322526032]
本稿では、ドメイン抽象化の逆問題であるDomain Concretizationの問題として、これを定式化する。
提案アルゴリズムは,設計者や教師が人間ユーザから取得した不完全なドメインモデルに基づいて,最小限のモデル仮定の下で設定された候補モデルを探索する。
すると、候補モデルの集合の下で成功の確率が最大となるロバストな計画を生成する。
論文 参考訳(メタデータ) (2020-11-18T01:56:15Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。