論文の概要: Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach
- arxiv url: http://arxiv.org/abs/2402.19265v1
- Date: Thu, 29 Feb 2024 15:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:13:16.169713
- Title: Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach
- Title(参考訳): pomdpsにおけるポリシー指導のための論理仕様学習 : 帰納的論理プログラミングアプローチ
- Authors: Daniele Meli, Alberto Castellini, Alessandro Farinelli
- Abstract要約: 我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
- 参考スコア(独自算出の注目度): 57.788675205519986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are a powerful
framework for planning under uncertainty. They allow to model state uncertainty
as a belief probability distribution. Approximate solvers based on Monte Carlo
sampling show great success to relax the computational demand and perform
online planning. However, scaling to complex realistic domains with many
actions and long planning horizons is still a major challenge, and a key point
to achieve good performance is guiding the action-selection process with
domain-dependent policy heuristics which are tailored for the specific
application domain. We propose to learn high-quality heuristics from POMDP
traces of executions generated by any solver. We convert the belief-action
pairs to a logical semantics, and exploit data- and time-efficient Inductive
Logic Programming (ILP) to generate interpretable belief-based policy
specifications, which are then used as online heuristics. We evaluate
thoroughly our methodology on two notoriously challenging POMDP problems,
involving large action spaces and long planning horizons, namely, rocksample
and pocman. Considering different state-of-the-art online POMDP solvers,
including POMCP, DESPOT and AdaOPS, we show that learned heuristics expressed
in Answer Set Programming (ASP) yield performance superior to neural networks
and similar to optimal handcrafted task-specific heuristics within lower
computational time. Moreover, they well generalize to more challenging
scenarios not experienced in the training phase (e.g., increasing rocks and
grid size in rocksample, incrementing the size of the map and the aggressivity
of ghosts in pocman).
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は不確実性の下で計画するための強力なフレームワークである。
状態不確実性を信念確率分布としてモデル化することができる。
モンテカルロサンプリングに基づく近似解法は、計算需要を緩和し、オンライン計画を行うことで大きな成功を収めている。
しかし、多くのアクションと長い計画の地平線を持つ複雑な現実的なドメインへのスケーリングは依然として大きな課題であり、優れたパフォーマンスを達成するための重要なポイントは、特定のアプリケーションドメインに適したドメインに依存したポリシーヒューリスティックによるアクション選択プロセスを導くことである。
我々は,任意の解法によって生成されるPOMDPトレースから高品質なヒューリスティックスを学ぶことを提案する。
我々は、信念-行動ペアを論理的意味論に変換し、データと時間効率の帰納的論理プログラミング(ILP)を利用して解釈可能な信念に基づくポリシー仕様を生成し、それをオンラインヒューリスティックスとして利用する。
我々は,大規模行動空間と長期計画地平線,すなわちrocksample と pocman を含むpomdp問題に対する方法論を徹底的に評価した。
POMCP, DESPOT, AdaOPS など最先端のオンライン POMDP 解法を考えると, Answer Set Programming (ASP) で表される学習ヒューリスティックスはニューラルネットワークよりも優れた性能を示し,より低い計算時間で最適な手作りタスク固有ヒューリスティックに類似していることを示す。
さらに、訓練段階で経験したことのないより困難なシナリオ(岩盤の岩や格子の大きさの増加、地図のサイズとポックマンのゴーストの攻撃性の増加など)をうまく一般化している。
関連論文リスト
- Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
論文 参考訳(メタデータ) (2023-10-03T18:24:47Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned
Approximations [40.740534524000324]
実世界の計画問題は、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決されている。
高次元のPOMDPを現実的に解くために、最先端の手法では、オンラインプランニングを問題特異的で使用し、計画の地平線を小さくする。
高次元POMDPのための信念状態計画アルゴリズムであるBetaZeroを提案する。
論文 参考訳(メタデータ) (2023-05-31T23:47:31Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。