論文の概要: Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks
- arxiv url: http://arxiv.org/abs/2502.13006v1
- Date: Tue, 18 Feb 2025 16:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:12.289026
- Title: Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks
- Title(参考訳): 複雑なタスクに対処するための強化学習、行動モデル学習、および数値計画の統合
- Authors: Yarin Benyamin, Argaman Mordoch, Shahaf S. Shperberg, Roni Stern,
- Abstract要約: 自動計画アルゴリズムは、各アクションの前提条件と効果を指定するドメインのモデルを必要とする。
数値的なドメインモデルと計画の学習が、数値的な計画環境にとって効果的なアプローチであるかどうかは不明だ。
本研究では、数値的なドメインモデルを学習し、それを代替のモデルフリーソリューションと比較する利点について検討する。
- 参考スコア(独自算出の注目度): 12.281688043929996
- License:
- Abstract: Automated Planning algorithms require a model of the domain that specifies the preconditions and effects of each action. Obtaining such a domain model is notoriously hard. Algorithms for learning domain models exist, yet it remains unclear whether learning a domain model and planning is an effective approach for numeric planning environments, i.e., where states include discrete and numeric state variables. In this work, we explore the benefits of learning a numeric domain model and compare it with alternative model-free solutions. As a case study, we use two tasks in Minecraft, a popular sandbox game that has been used as an AI challenge. First, we consider an offline learning setting, where a set of expert trajectories are available to learn from. This is the standard setting for learning domain models. We used the Numeric Safe Action Model Learning (NSAM) algorithm to learn a numeric domain model and solve new problems with the learned domain model and a numeric planner. We call this model-based solution NSAM_(+p), and compare it to several model-free Imitation Learning (IL) and Offline Reinforcement Learning (RL) algorithms. Empirical results show that some IL algorithms can learn faster to solve simple tasks, while NSAM_(+p) allows solving tasks that require long-term planning and enables generalizing to solve problems in larger environments. Then, we consider an online learning setting, where learning is done by moving an agent in the environment. For this setting, we introduce RAMP. In RAMP, observations collected during the agent's execution are used to simultaneously train an RL policy and learn a planning domain action model. This forms a positive feedback loop between the RL policy and the learned domain model. We demonstrate experimentally the benefits of using RAMP, showing that it finds more efficient plans and solves more problems than several RL baselines.
- Abstract(参考訳): 自動計画アルゴリズムは、各アクションの前提条件と効果を指定するドメインのモデルを必要とする。
このようなドメインモデルを持つことは、悪名高い。
ドメインモデルを学習するためのアルゴリズムは存在するが、ドメインモデルと計画を学ぶことが数値計画環境、すなわち状態が離散的かつ数値的状態変数を含む場合の効果的なアプローチであるかどうかは不明である。
本研究では、数値的なドメインモデルを学習し、それを代替のモデルフリーソリューションと比較する利点について検討する。
ケーススタディでは、AIチャレンジとして使用されている人気のサンドボックスゲームであるMinecraftで2つのタスクを使用します。
まず、専門家の軌道のセットから学ぶことができるオフラインの学習環境について検討する。
これはドメインモデルを学習するための標準設定です。
我々は、NSAM(Numeric Safe Action Model Learning)アルゴリズムを用いて、数値ドメインモデルを学習し、学習したドメインモデルと数値プランナーで新しい問題を解決する。
このモデルベースソリューションを NSAM_(+p) と呼び、モデルフリーなImitation Learning (IL) やオフライン強化学習 (RL) アルゴリズムと比較する。
一方,NSAM_(+p)では長期計画を必要とするタスクを解くことができ,大規模環境における問題を一般化することができる。
次に,エージェントを環境に移動させることで学習を行うオンライン学習環境について考察する。
この設定のために、RAMPを紹介します。
RAMPでは、エージェントの実行中に収集された観察を使用して、RLポリシーを同時にトレーニングし、計画ドメインアクションモデルを学ぶ。
これは、RLポリシーと学習ドメインモデルの間に肯定的なフィードバックループを形成します。
実験によりRAMPの利点を実証し、より効率的な計画を見つけ、複数のRLベースラインよりも多くの問題を解決することを示した。
関連論文リスト
- A New View on Planning in Online Reinforcement Learning [19.35031543927374]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:45:19Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Goal-Space Planning with Subgoal Models [18.43265820052893]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:59:07Z) - SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning [18.37286885057802]
従来使用できなかった不完全モデルのクラスを利用するための学習と計画を組み合わせたアルゴリズムを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせたものだ。
論文 参考訳(メタデータ) (2022-03-09T22:55:53Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Safe Learning of Lifted Action Models [46.65973550325976]
本稿では,古典計画におけるモデルフリー計画問題の解法を提案する。
将来の問題を高い確率で解くのに必要な軌道の数は、ドメインモデルの潜在的サイズにおいて線形である。
論文 参考訳(メタデータ) (2021-07-09T01:24:01Z) - Auto-Ensemble: An Adaptive Learning Rate Scheduling based Deep Learning
Model Ensembling [11.324407834445422]
本稿では,ディープラーニングモデルのチェックポイントを収集し,それらを自動的にアンサンブルする自動アンサンブル(AE)を提案する。
この手法の利点は、一度のトレーニングで学習率をスケジューリングすることで、モデルを様々な局所最適化に収束させることである。
論文 参考訳(メタデータ) (2020-03-25T08:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。