論文の概要: Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach
- arxiv url: http://arxiv.org/abs/2402.19265v1
- Date: Thu, 29 Feb 2024 15:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:13:16.169713
- Title: Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach
- Title(参考訳): pomdpsにおけるポリシー指導のための論理仕様学習 : 帰納的論理プログラミングアプローチ
- Authors: Daniele Meli, Alberto Castellini, Alessandro Farinelli
- Abstract要約: 我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
- 参考スコア(独自算出の注目度): 57.788675205519986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are a powerful
framework for planning under uncertainty. They allow to model state uncertainty
as a belief probability distribution. Approximate solvers based on Monte Carlo
sampling show great success to relax the computational demand and perform
online planning. However, scaling to complex realistic domains with many
actions and long planning horizons is still a major challenge, and a key point
to achieve good performance is guiding the action-selection process with
domain-dependent policy heuristics which are tailored for the specific
application domain. We propose to learn high-quality heuristics from POMDP
traces of executions generated by any solver. We convert the belief-action
pairs to a logical semantics, and exploit data- and time-efficient Inductive
Logic Programming (ILP) to generate interpretable belief-based policy
specifications, which are then used as online heuristics. We evaluate
thoroughly our methodology on two notoriously challenging POMDP problems,
involving large action spaces and long planning horizons, namely, rocksample
and pocman. Considering different state-of-the-art online POMDP solvers,
including POMCP, DESPOT and AdaOPS, we show that learned heuristics expressed
in Answer Set Programming (ASP) yield performance superior to neural networks
and similar to optimal handcrafted task-specific heuristics within lower
computational time. Moreover, they well generalize to more challenging
scenarios not experienced in the training phase (e.g., increasing rocks and
grid size in rocksample, incrementing the size of the map and the aggressivity
of ghosts in pocman).
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は不確実性の下で計画するための強力なフレームワークである。
状態不確実性を信念確率分布としてモデル化することができる。
モンテカルロサンプリングに基づく近似解法は、計算需要を緩和し、オンライン計画を行うことで大きな成功を収めている。
しかし、多くのアクションと長い計画の地平線を持つ複雑な現実的なドメインへのスケーリングは依然として大きな課題であり、優れたパフォーマンスを達成するための重要なポイントは、特定のアプリケーションドメインに適したドメインに依存したポリシーヒューリスティックによるアクション選択プロセスを導くことである。
我々は,任意の解法によって生成されるPOMDPトレースから高品質なヒューリスティックスを学ぶことを提案する。
我々は、信念-行動ペアを論理的意味論に変換し、データと時間効率の帰納的論理プログラミング(ILP)を利用して解釈可能な信念に基づくポリシー仕様を生成し、それをオンラインヒューリスティックスとして利用する。
我々は,大規模行動空間と長期計画地平線,すなわちrocksample と pocman を含むpomdp問題に対する方法論を徹底的に評価した。
POMCP, DESPOT, AdaOPS など最先端のオンライン POMDP 解法を考えると, Answer Set Programming (ASP) で表される学習ヒューリスティックスはニューラルネットワークよりも優れた性能を示し,より低い計算時間で最適な手作りタスク固有ヒューリスティックに類似していることを示す。
さらに、訓練段階で経験したことのないより困難なシナリオ(岩盤の岩や格子の大きさの増加、地図のサイズとポックマンのゴーストの攻撃性の増加など)をうまく一般化している。
関連論文リスト
- Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
論文 参考訳(メタデータ) (2023-10-03T18:24:47Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。