論文の概要: Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time
- arxiv url: http://arxiv.org/abs/2505.03668v1
- Date: Tue, 06 May 2025 16:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.46785
- Title: Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time
- Title(参考訳): 時間とともに解決するPOMDPのための記号的永続マクロ反応の学習
- Authors: Celeste Veronese, Daniele Meli, Alessandro Farinelli,
- Abstract要約: 本稿では,時間的論理的推論と部分観測可能なマルコフ決定過程(POMDP)の統合を提案する。
本手法は,イベント計算(EC)に基づく線形時間論理(LTL)の断片を利用して,固有(定数)なマクロアクションを生成する。
これらのマクロアクションは、MCTS(Monte Carlo Tree Search)ベースのPOMDPソルバを時間軸上でガイドする。
- 参考スコア(独自算出の注目度): 52.03682298194168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an integration of temporal logical reasoning and Partially Observable Markov Decision Processes (POMDPs) to achieve interpretable decision-making under uncertainty with macro-actions. Our method leverages a fragment of Linear Temporal Logic (LTL) based on Event Calculus (EC) to generate \emph{persistent} (i.e., constant) macro-actions, which guide Monte Carlo Tree Search (MCTS)-based POMDP solvers over a time horizon, significantly reducing inference time while ensuring robust performance. Such macro-actions are learnt via Inductive Logic Programming (ILP) from a few traces of execution (belief-action pairs), thus eliminating the need for manually designed heuristics and requiring only the specification of the POMDP transition model. In the Pocman and Rocksample benchmark scenarios, our learned macro-actions demonstrate increased expressiveness and generality when compared to time-independent heuristics, indeed offering substantial computational efficiency improvements.
- Abstract(参考訳): 本稿では,時間的論理的推論と部分観測可能なマルコフ決定過程(POMDP)を統合し,マクロアクションの不確実性を考慮した解釈可能な意思決定を実現することを提案する。
提案手法では,イベント計算(EC)に基づく線形時間論理(LTL)の断片を利用して,モンテカルロ木探索(MCTS)ベースのPOMDPソルバを時間的水平線上でガイドするマクロアクション(定数)を生成する。
このようなマクロアクションは、インダクティブ・ロジック・プログラミング(ILP)によっていくつかの実行の痕跡から学習され、手動設計によるヒューリスティックスの必要性を排除し、POMDPトランジションモデルの仕様のみを必要とする。
Pocman と Rocksample のベンチマークシナリオでは、時間に依存しないヒューリスティックスと比較して、学習したマクロアクションは表現性や一般性が向上し、計算効率が大幅に向上した。
関連論文リスト
- Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。
L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する
連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文 参考訳(メタデータ) (2025-02-28T16:02:23Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - MAGIC: Learning Macro-Actions for Online POMDP Planning [14.156697390568617]
MAGICは、オンラインプランナーのパフォーマンスをフィードバックとして、マクロアクションジェネレータをエンドツーエンドで学習する。
我々は、シミュレーションと実ロボットの両方において、複数の長期計画タスクにおいてMAGICを評価する。
論文 参考訳(メタデータ) (2020-11-07T17:18:45Z) - Meta Learning in the Continuous Time Limit [36.23467808322093]
モデルAメタラーニング(MAML)の学習力学の基礎となる常微分方程式(ODE)を確立する。
本稿では,既存のMAMLトレーニング手法に関連する計算負担を大幅に軽減するBI-MAMLトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-19T01:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。