Fugu-MT 論文翻訳(概要): Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach

論文の概要: Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach

arxiv url: http://arxiv.org/abs/2402.19265v1
Date: Thu, 29 Feb 2024 15:36:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 14:13:16.169713
Title: Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach
Title（参考訳）: pomdpsにおけるポリシー指導のための論理仕様学習 : 帰納的論理プログラミングアプローチ
Authors: Daniele Meli, Alberto Castellini, Alessandro Farinelli
Abstract要約: 我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
参考スコア（独自算出の注目度）: 57.788675205519986
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Partially Observable Markov Decision Processes (POMDPs) are a powerful framework for planning under uncertainty. They allow to model state uncertainty as a belief probability distribution. Approximate solvers based on Monte Carlo sampling show great success to relax the computational demand and perform online planning. However, scaling to complex realistic domains with many actions and long planning horizons is still a major challenge, and a key point to achieve good performance is guiding the action-selection process with domain-dependent policy heuristics which are tailored for the specific application domain. We propose to learn high-quality heuristics from POMDP traces of executions generated by any solver. We convert the belief-action pairs to a logical semantics, and exploit data- and time-efficient Inductive Logic Programming (ILP) to generate interpretable belief-based policy specifications, which are then used as online heuristics. We evaluate thoroughly our methodology on two notoriously challenging POMDP problems, involving large action spaces and long planning horizons, namely, rocksample and pocman. Considering different state-of-the-art online POMDP solvers, including POMCP, DESPOT and AdaOPS, we show that learned heuristics expressed in Answer Set Programming (ASP) yield performance superior to neural networks and similar to optimal handcrafted task-specific heuristics within lower computational time. Moreover, they well generalize to more challenging scenarios not experienced in the training phase (e.g., increasing rocks and grid size in rocksample, incrementing the size of the map and the aggressivity of ghosts in pocman).
Abstract（参考訳）: 部分的に観測可能なマルコフ決定プロセス(POMDP)は不確実性の下で計画するための強力なフレームワークである。状態不確実性を信念確率分布としてモデル化することができる。モンテカルロサンプリングに基づく近似解法は、計算需要を緩和し、オンライン計画を行うことで大きな成功を収めている。しかし、多くのアクションと長い計画の地平線を持つ複雑な現実的なドメインへのスケーリングは依然として大きな課題であり、優れたパフォーマンスを達成するための重要なポイントは、特定のアプリケーションドメインに適したドメインに依存したポリシーヒューリスティックによるアクション選択プロセスを導くことである。我々は,任意の解法によって生成されるPOMDPトレースから高品質なヒューリスティックスを学ぶことを提案する。我々は、信念-行動ペアを論理的意味論に変換し、データと時間効率の帰納的論理プログラミング(ILP)を利用して解釈可能な信念に基づくポリシー仕様を生成し、それをオンラインヒューリスティックスとして利用する。我々は,大規模行動空間と長期計画地平線,すなわちrocksample と pocman を含むpomdp問題に対する方法論を徹底的に評価した。 POMCP, DESPOT, AdaOPS など最先端のオンライン POMDP 解法を考えると, Answer Set Programming (ASP) で表される学習ヒューリスティックスはニューラルネットワークよりも優れた性能を示し,より低い計算時間で最適な手作りタスク固有ヒューリスティックに類似していることを示す。さらに、訓練段階で経験したことのないより困難なシナリオ(岩盤の岩や格子の大きさの増加、地図のサイズとポックマンのゴーストの攻撃性の増加など)をうまく一般化している。

関連論文リスト

Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。 L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文参考訳（メタデータ） (2025-02-28T16:02:23Z)
On Sequential Fault-Intolerant Process Planning [60.66853798340345]
我々は、逐次的フォールトトレラントプロセス計画(SFIPP)と呼ばれる計画問題を提案し、研究する。 SFIPPは、全ての段階が成功する場合にのみ計画が成功すると判断される多くの連続した多段階決定問題に共通する報酬構造をキャプチャする。私たちは、異なるアクションを選択して、それぞれのステージで成功の確率を未知にする必要がある設定のために、確実に厳密なオンラインアルゴリズムを設計します。
論文参考訳（メタデータ） (2025-02-07T15:20:35Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。 POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。本稿では,PMDPを緊急計画問題としてモデル化する。
論文参考訳（メタデータ） (2023-10-03T18:24:47Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文参考訳（メタデータ） (2023-03-16T09:37:10Z)
Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-12-30T21:08:57Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。 VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。 VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文参考訳（メタデータ） (2021-12-17T11:53:31Z)
Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文参考訳（メタデータ） (2021-06-25T22:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。