論文の概要: Return to Tradition: Learning Reliable Heuristics with Classical Machine Learning
- arxiv url: http://arxiv.org/abs/2403.16508v1
- Date: Mon, 25 Mar 2024 07:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:37:57.104183
- Title: Return to Tradition: Learning Reliable Heuristics with Classical Machine Learning
- Title(参考訳): Return to Tradition: 古典的機械学習による信頼性のあるヒューリスティックス学習
- Authors: Dillon Z. Chen, Felipe Trevizan, Sylvie Thiébaux,
- Abstract要約: 持ち上げ計画タスクのグラフ表現を新たに構築し,WLアルゴリズムを用いて特徴量を生成する。
我々の新しいアプローチであるWL-GOOSEは、論理をスクラッチから確実に学習し、公正な競争条件で$htextFF$を上回ります。
LAMAは10ドメイン中4ドメイン、プラン品質では10ドメイン中7ドメインでパフォーマンスや関連性も優れています。
- 参考スコア(独自算出の注目度): 2.6422127672474933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches for learning for planning have yet to achieve competitive performance against classical planners in several domains, and have poor overall performance. In this work, we construct novel graph representations of lifted planning tasks and use the WL algorithm to generate features from them. These features are used with classical machine learning methods which have up to 2 orders of magnitude fewer parameters and train up to 3 orders of magnitude faster than the state-of-the-art deep learning for planning models. Our novel approach, WL-GOOSE, reliably learns heuristics from scratch and outperforms the $h^{\text{FF}}$ heuristic in a fair competition setting. It also outperforms or ties with LAMA on 4 out of 10 domains on coverage and 7 out of 10 domains on plan quality. WL-GOOSE is the first learning for planning model which achieves these feats. Furthermore, we study the connections between our novel WL feature generation method, previous theoretically flavoured learning architectures, and Description Logic Features for planning.
- Abstract(参考訳): 計画学習の現在のアプローチは、いくつかの領域における古典的プランナーとの競争的なパフォーマンスを達成できていない。
本研究では,持ち上げ計画タスクのグラフ表現を新たに構築し,WLアルゴリズムを用いて特徴量を生成する。
これらの機能は、パラメータを最大2桁まで減らし、計画モデルのための最先端のディープラーニングよりも最大3桁高速にトレーニングする古典的な機械学習手法で使用される。
我々の新しいアプローチであるWL-GOOSEは、スクラッチからヒューリスティックを確実に学習し、公正競争環境では$h^{\text{FF}}$ヒューリスティックを上回ります。
LAMAは10ドメイン中4ドメイン、プラン品質では10ドメイン中7ドメインでパフォーマンスや関連性も優れています。
WL-GOOSEはこれらの成果を達成するための計画モデルの最初の学習である。
さらに,提案する新たなWL特徴生成手法と,従来の理論的に難解な学習アーキテクチャと,計画のための記述論理特徴との関連性について検討した。
関連論文リスト
- Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - Learning to Select Goals in Automated Planning with Deep-Q Learning [7.373617024876726]
本稿では,Deep Q-Learning を用いたサブゴール選択を学習するモジュールを組み込んだ計画と実行アーキテクチャを提案する。
我々はこのアーキテクチャを、インテリジェントなシステムアプリケーションのための標準的なテストベッドとして使用されるビデオゲーム環境で訓練した。
論文 参考訳(メタデータ) (2024-06-20T23:02:44Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - A New View on Planning in Online Reinforcement Learning [19.35031543927374]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:45:19Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Skill-based Model-based Reinforcement Learning [18.758245582997656]
モデルベース強化学習(RL)は、複雑な振る舞いを学習するサンプル効率のよい方法である。
本稿では,スキル領域における計画を可能にするSkill-based Model-based RL framework(SkiMo)を提案する。
学習したスキルダイナミクスモデルを利用して、スキル空間の長い地平線を正確にシミュレートし、計画する。
論文 参考訳(メタデータ) (2022-07-15T16:06:33Z) - Reinforcement Learning for Classical Planning: Viewing Heuristics as
Dense Reward Generators [54.6441336539206]
本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存関数を活用することを提案する。
これらの古典は、スパース・リワード問題を緩和し、RLエージェントが残余としてドメイン固有の値関数を学習できるようにするために、密度の高い報酬生成器として機能する。
いくつかの古典的計画領域において、古典論理を RL に用いた場合、スパース逆 RL と比較してサンプル効率が良いことを実証する。
論文 参考訳(メタデータ) (2021-09-30T03:36:01Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - Think Too Fast Nor Too Slow: The Computational Trade-off Between
Planning And Reinforcement Learning [6.26592851697969]
計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。
計画と学習のトレードオフが重要であることを示す。
提案手法は,探索時間(長期計画)からモデルフリーなRL(計画なし)まで多岐にわたる新しい計画学習アルゴリズムのスペクトルを同定し,その中間に最適な性能を実現する。
論文 参考訳(メタデータ) (2020-05-15T08:20:08Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。