論文の概要: Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.13372v1
- Date: Mon, 19 May 2025 17:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.763327
- Title: Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning
- Title(参考訳): 強化学習を用いたドメイン特化時間計画指導のための爆発的記号ヒューリスティックス
- Authors: Irene Brugnara, Alessandro Valentini, Andrea Micheli,
- Abstract要約: 最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。
本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
- 参考スコア(独自算出の注目度): 51.54559117314768
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work investigated the use of Reinforcement Learning (RL) for the synthesis of heuristic guidance to improve the performance of temporal planners when a domain is fixed and a set of training problems (not plans) is given. The idea is to extract a heuristic from the value function of a particular (possibly infinite-state) MDP constructed over the training problems. In this paper, we propose an evolution of this learning and planning framework that focuses on exploiting the information provided by symbolic heuristics during both the RL and planning phases. First, we formalize different reward schemata for the synthesis and use symbolic heuristics to mitigate the problems caused by the truncation of episodes needed to deal with the potentially infinite MDP. Second, we propose learning a residual of an existing symbolic heuristic, which is a "correction" of the heuristic value, instead of eagerly learning the whole heuristic from scratch. Finally, we use the learned heuristic in combination with a symbolic heuristic using a multiple-queue planning approach to balance systematic search with imperfect learned information. We experimentally compare all the approaches, highlighting their strengths and weaknesses and significantly advancing the state of the art for this planning and learning schema.
- Abstract(参考訳): 最近の研究は、時間プランナーのドメインが固定され、一連のトレーニング問題(プランではない)が与えられる際に、時間プランナーのパフォーマンスを改善するためのヒューリスティックガイダンスの合成に強化学習(RL)を用いることを検討した。
この考え方は、訓練問題の上に構築された特定の(おそらく無限状態) MDP の値関数からヒューリスティックを抽出することである。
本稿では,RLと計画段階の両方において,象徴的ヒューリスティックスが提供した情報を活用することに焦点を当てた,学習と計画の枠組みの進化を提案する。
まず、合成のための異なる報酬スキーマを定式化し、シンボルヒューリスティックを用いて、潜在的に無限大のMDPに対処するために必要なエピソードの切り詰めによる問題を緩和する。
第2に,既存の記号的ヒューリスティックの残余を学習することを提案する。
最後に,学習したヒューリスティックと記号的ヒューリスティックを組み合わせたマルチキュー計画手法を用いて,体系的な探索と不完全な学習情報とのバランスをとる。
私たちは、すべてのアプローチを実験的に比較し、その強みと弱さを強調し、この計画と学習スキーマの最先端を著しく前進させます。
関連論文リスト
- The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning [19.470693909025798]
シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。
当社のフレームワークは,政策改善の指針となるループトレーニングを特徴としている。
我々はモンテズマのRevengeとOffice Worldの2つの領域でそれぞれ実験を行っている。
論文 参考訳(メタデータ) (2021-12-18T03:45:28Z) - Heuristic Search Planning with Deep Neural Networks using Imitation,
Attention and Curriculum Learning [1.0323063834827413]
本稿では、最適計画模倣により、状態空間の遠い部分に関連する能力を学ぶためのネットワークモデルを提案する。
難易度の増加に伴う問題の創出における手法の限界に対処するために,新たに解決した問題インスタンスをトレーニングセットに追加するカリキュラム学習の利用を実演する。
論文 参考訳(メタデータ) (2021-12-03T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。