論文の概要: On Solving a Stochastic Shortest-Path Markov Decision Process as
Probabilistic Inference
- arxiv url: http://arxiv.org/abs/2109.05866v1
- Date: Mon, 13 Sep 2021 11:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:02:55.995014
- Title: On Solving a Stochastic Shortest-Path Markov Decision Process as
Probabilistic Inference
- Title(参考訳): 確率的最短経路マルコフ決定過程の確率的推論による解法について
- Authors: Mohamed Baioumy, Bruno Lacerda, Paul Duckworth, Nick Hawes
- Abstract要約: 本稿では,確率的推論として,SSP MDP(General Decision Shortest-Path Markov Process)を提案する。
我々は不確実性の下での計画のオンラインとオフラインの手法について議論する。
- 参考スコア(独自算出の注目度): 5.517104116168873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work on planning as active inference addresses finite horizon
problems and solutions valid for online planning. We propose solving the
general Stochastic Shortest-Path Markov Decision Process (SSP MDP) as
probabilistic inference. Furthermore, we discuss online and offline methods for
planning under uncertainty. In an SSP MDP, the horizon is indefinite and
unknown a priori. SSP MDPs generalize finite and infinite horizon MDPs and are
widely used in the artificial intelligence community. Additionally, we
highlight some of the differences between solving an MDP using dynamic
programming approaches widely used in the artificial intelligence community and
approaches used in the active inference community.
- Abstract(参考訳): アクティブ推論としての計画に関する以前の作業は、オンライン計画に有効な有限地平線問題と解決策に対処する。
本稿では確率的推論として確率的短パルスマルコフ決定過程(SSP MDP)を提案する。
さらに,不確実性を考慮した計画手法について検討する。
SSP MDP では、地平線は不確定であり、前兆は未知である。
SSP MDP は有限と無限の地平線 MDP を一般化し、人工知能コミュニティで広く利用されている。
さらに,人工知能コミュニティで広く使用されている動的プログラミング手法と,アクティブな推論コミュニティで使用されているアプローチとの相違点を強調した。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned Approximations [37.29355942795658]
実世界の計画問題は、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決されている。
高次元のPOMDPを現実的に解くために、最先端の手法では、オンラインプランニングを問題特異的で使用し、計画の地平線を小さくする。
高次元POMDPのための信念状態計画アルゴリズムであるBetaZeroを提案する。
論文 参考訳(メタデータ) (2023-05-31T23:47:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Intention-Aware Navigation in Crowds with Extended-Space POMDP Planning [5.01069065110753]
本稿では,Palially Observable Markov Decision Process (POMDP)計画システムについて述べる。
歩行者や障害物の密集した群集における自律走行の問題点を考察する。
我々は,POMDPプランナがより多くの自由度を制御できる,より有能で応答性の高いリアルタイムアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-20T22:26:14Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2021-09-27T22:44:55Z) - Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces [5.732271870257913]
不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-08T09:31:48Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。