論文の概要: Learning Sketch Decompositions in Planning via Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.08574v1
- Date: Wed, 11 Dec 2024 17:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:39.228953
- Title: Learning Sketch Decompositions in Planning via Deep Reinforcement Learning
- Title(参考訳): 深層強化学習による計画におけるスケッチ分解の学習
- Authors: Michael Aichmüller, Hector Geffner,
- Abstract要約: 計画と強化学習においては,問題間の共通部分構造を同定することが重要である。
これらのスケッチは問題をサブプロブレムに分割し、IW$(k)$検索の欲求列によって低時間で解けるようにした。
- 参考スコア(独自算出の注目度): 10.52014836549529
- License:
- Abstract: In planning and reinforcement learning, the identification of common subgoal structures across problems is important when goals are to be achieved over long horizons. Recently, it has been shown that such structures can be expressed as feature-based rules, called sketches, over a number of classical planning domains. These sketches split problems into subproblems which then become solvable in low polynomial time by a greedy sequence of IW$(k)$ searches. Methods for learning sketches using feature pools and min-SAT solvers have been developed, yet they face two key limitations: scalability and expressivity. In this work, we address these limitations by formulating the problem of learning sketch decompositions as a deep reinforcement learning (DRL) task, where general policies are sought in a modified planning problem where the successor states of a state s are defined as those reachable from s through an IW$(k)$ search. The sketch decompositions obtained through this method are experimentally evaluated across various domains, and problems are regarded as solved by the decomposition when the goal is reached through a greedy sequence of IW$(k)$ searches. While our DRL approach for learning sketch decompositions does not yield interpretable sketches in the form of rules, we demonstrate that the resulting decompositions can often be understood in a crisp manner.
- Abstract(参考訳): 計画と強化学習において、長い地平線上で目標を達成するためには、問題を越えた共通サブゴアル構造の同定が重要である。
近年、こうした構造は、多くの古典的計画領域において、スケッチと呼ばれる特徴に基づく規則として表現できることが示されている。
これらのスケッチは問題をサブプロブレムに分割し、低多項式時間でIW$(k)$検索の欲求列によって解ける。
機能プールとmin-SATソルバを使ってスケッチを学習する方法が開発されているが、スケーラビリティと表現性という2つの重要な制限に直面している。
本稿では,スケッチ分解を深部強化学習(DRL)タスクとして学習する問題を定式化した上で,状態 s の後継状態が IW$(k)$検索によって s から到達可能な状態として定義されるような変更計画問題において,一般的なポリシを求める。
本手法により得られたスケッチ分解は, 様々な領域で実験的に評価され, IW$(k)$検索の欲求シーケンスでゴールに到達すると, 分解によって解決されると考えられる。
スケッチ分解を学習するためのDRLアプローチでは,規則の形で解釈可能なスケッチは得られないが,結果の分解がクリップな方法で理解できることが証明されている。
関連論文リスト
- Learning Hidden Subgoals under Temporal Ordering Constraints in Reinforcement Learning [14.46490764849977]
本稿では, bf 順序付き bf 制約 (LSTOC) に基づく bf l 隠れ bf サブゴールに対する新しい RL アルゴリズムを提案する。
本研究では,隠れたサブゴールとその時間的順序を同時に学習できる新しいコントラスト学習目標を提案する。
論文 参考訳(メタデータ) (2024-11-03T03:22:39Z) - An Option-Dependent Analysis of Regret Minimization Algorithms in
Finite-Horizon Semi-Markov Decision Processes [47.037877670620524]
有限ホライゾン問題における後悔最小化アルゴリズムに苦しむ後悔に対するオプション依存上界について述べる。
本稿では,階層構造によって強制される時間的抽象化によって誘導される計画的地平線低減から,性能改善が導かれることを示す。
論文 参考訳(メタデータ) (2023-05-10T15:00:05Z) - Learning Sketches for Decomposing Planning Problems into Subproblems of
Bounded Width: Extended Version [18.95007906887466]
スケッチは、同じドメインから引き出されたインスタンスのサブゴール構造を表す一般的な言語として導入された。
本稿では,計画領域,対象とする問題のいくつか,スケッチ幅の所望値などを自動的に与えられたスケッチを学習する問題を提示する。
スケッチ学習者およびSIW_Rプランナーは、明快で明示的な形式でドメイン構造を学習し、活用するドメイン非依存プランナーを生成する。
論文 参考訳(メタデータ) (2022-03-28T15:49:08Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Expressing and Exploiting the Common Subgoal Structure of Classical
Planning Domains Using Sketches: Extended Version [17.63517562327928]
我々は、Bornt と Geffner が最近導入したポリシースケッチと呼ばれる問題分解を表現するために、単純だが強力な言語を使用します。
ポリシースケッチRは、Booleanと数値的特徴のセットと、これらの特徴の値がどのように変化するかを表現するスケッチルールのセットで構成される。
本稿では,SIW_Rアルゴリズムを用いて,SIWで解けない多くの計画領域を短時間で解けることを示す。
論文 参考訳(メタデータ) (2021-05-10T10:36:18Z) - An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。
特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。
提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文 参考訳(メタデータ) (2020-06-18T20:09:53Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。