論文の概要: Return to Tradition: Learning Reliable Heuristics with Classical Machine Learning
- arxiv url: http://arxiv.org/abs/2403.16508v1
- Date: Mon, 25 Mar 2024 07:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:37:57.104183
- Title: Return to Tradition: Learning Reliable Heuristics with Classical Machine Learning
- Title(参考訳): Return to Tradition: 古典的機械学習による信頼性のあるヒューリスティックス学習
- Authors: Dillon Z. Chen, Felipe Trevizan, Sylvie Thiébaux,
- Abstract要約: 持ち上げ計画タスクのグラフ表現を新たに構築し,WLアルゴリズムを用いて特徴量を生成する。
我々の新しいアプローチであるWL-GOOSEは、論理をスクラッチから確実に学習し、公正な競争条件で$htextFF$を上回ります。
LAMAは10ドメイン中4ドメイン、プラン品質では10ドメイン中7ドメインでパフォーマンスや関連性も優れています。
- 参考スコア(独自算出の注目度): 2.6422127672474933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches for learning for planning have yet to achieve competitive performance against classical planners in several domains, and have poor overall performance. In this work, we construct novel graph representations of lifted planning tasks and use the WL algorithm to generate features from them. These features are used with classical machine learning methods which have up to 2 orders of magnitude fewer parameters and train up to 3 orders of magnitude faster than the state-of-the-art deep learning for planning models. Our novel approach, WL-GOOSE, reliably learns heuristics from scratch and outperforms the $h^{\text{FF}}$ heuristic in a fair competition setting. It also outperforms or ties with LAMA on 4 out of 10 domains on coverage and 7 out of 10 domains on plan quality. WL-GOOSE is the first learning for planning model which achieves these feats. Furthermore, we study the connections between our novel WL feature generation method, previous theoretically flavoured learning architectures, and Description Logic Features for planning.
- Abstract(参考訳): 計画学習の現在のアプローチは、いくつかの領域における古典的プランナーとの競争的なパフォーマンスを達成できていない。
本研究では,持ち上げ計画タスクのグラフ表現を新たに構築し,WLアルゴリズムを用いて特徴量を生成する。
これらの機能は、パラメータを最大2桁まで減らし、計画モデルのための最先端のディープラーニングよりも最大3桁高速にトレーニングする古典的な機械学習手法で使用される。
我々の新しいアプローチであるWL-GOOSEは、スクラッチからヒューリスティックを確実に学習し、公正競争環境では$h^{\text{FF}}$ヒューリスティックを上回ります。
LAMAは10ドメイン中4ドメイン、プラン品質では10ドメイン中7ドメインでパフォーマンスや関連性も優れています。
WL-GOOSEはこれらの成果を達成するための計画モデルの最初の学習である。
さらに,提案する新たなWL特徴生成手法と,従来の理論的に難解な学習アーキテクチャと,計画のための記述論理特徴との関連性について検討した。
関連論文リスト
- LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Skill-based Model-based Reinforcement Learning [18.758245582997656]
モデルベース強化学習(RL)は、複雑な振る舞いを学習するサンプル効率のよい方法である。
本稿では,スキル領域における計画を可能にするSkill-based Model-based RL framework(SkiMo)を提案する。
学習したスキルダイナミクスモデルを利用して、スキル空間の長い地平線を正確にシミュレートし、計画する。
論文 参考訳(メタデータ) (2022-07-15T16:06:33Z) - Understanding Decision-Time vs. Background Planning in Model-Based
Reinforcement Learning [56.50123642237106]
一般的な2つのアプローチは、意思決定時計画とバックグラウンド計画である。
本研究は、これらの2つの計画スタイルのうちの1つが、どの条件で、どの設定が他の方法よりも優れているかを理解することに関心がある。
全体としては、意思決定時計画は、古典的インスタンス化において、背景計画と同等に動作しないが、現代のインスタンス化では、背景計画よりも同等かそれ以上に実行可能であることを示唆している。
論文 参考訳(メタデータ) (2022-06-16T20:48:19Z) - Reinforcement Learning for Classical Planning: Viewing Heuristics as
Dense Reward Generators [54.6441336539206]
本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存関数を活用することを提案する。
これらの古典は、スパース・リワード問題を緩和し、RLエージェントが残余としてドメイン固有の値関数を学習できるようにするために、密度の高い報酬生成器として機能する。
いくつかの古典的計画領域において、古典論理を RL に用いた場合、スパース逆 RL と比較してサンプル効率が良いことを実証する。
論文 参考訳(メタデータ) (2021-09-30T03:36:01Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - Think Too Fast Nor Too Slow: The Computational Trade-off Between
Planning And Reinforcement Learning [6.26592851697969]
計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。
計画と学習のトレードオフが重要であることを示す。
提案手法は,探索時間(長期計画)からモデルフリーなRL(計画なし)まで多岐にわたる新しい計画学習アルゴリズムのスペクトルを同定し,その中間に最適な性能を実現する。
論文 参考訳(メタデータ) (2020-05-15T08:20:08Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。