論文の概要: Structural Estimation of Partially Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2008.00500v3
- Date: Tue, 28 Dec 2021 18:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:19:21.552376
- Title: Structural Estimation of Partially Observable Markov Decision Processes
- Title(参考訳): 部分観測可能なマルコフ決定過程の構造推定
- Authors: Yanling Chang and Alfredo Garcia and Zhide Wang and Lu Sun
- Abstract要約: プロセスの観測可能な履歴に基づいて,POMDPモデルのプリミティブの構造的推定を考察する。
本稿では, 最適機器交換への適用例として, 推定手法について述べる。
- 参考スコア(独自算出の注目度): 3.1614382994158956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many practical settings control decisions must be made under
partial/imperfect information about the evolution of a relevant state variable.
Partially Observable Markov Decision Processes (POMDPs) is a relatively
well-developed framework for modeling and analyzing such problems. In this
paper we consider the structural estimation of the primitives of a POMDP model
based upon the observable history of the process. We analyze the structural
properties of POMDP model with random rewards and specify conditions under
which the model is identifiable without knowledge of the state dynamics. We
consider a soft policy gradient algorithm to compute a maximum likelihood
estimator and provide a finite-time characterization of convergence to a
stationary point. We illustrate the estimation methodology with an application
to optimal equipment replacement. In this context, replacement decisions must
be made under partial/imperfect information on the true state (i.e. condition
of the equipment). We use synthetic and real data to highlight the robustness
of the proposed methodology and characterize the potential for misspecification
when partial state observability is ignored.
- Abstract(参考訳): 多くの実用的な設定では、制御決定は関連する状態変数の進化に関する部分的/不完全な情報の下で行われなければならない。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、そのような問題をモデリングし分析するための比較的よく開発されたフレームワークである。
本稿では,プロセスの観測可能な履歴に基づいて,POMDPモデルのプリミティブの構造的推定について考察する。
ランダムな報酬を伴うPOMDPモデルの構造特性を解析し、状態力学の知識なしにモデルが識別可能な条件を指定する。
本研究では,最大確率推定値を計算するためのソフトポリシー勾配アルゴリズムを検討し,定常点への収束の有限時間キャラクタリゼーションを提供する。
本稿では,最適機器交換への適用による推定手法について述べる。
この文脈では、置換決定は真の状態(すなわち機器の状態)の部分的/不完全な情報の下で行う必要がある。
我々は合成データと実データを用いて,提案手法の頑健性を強調し,部分的状態観測性が無視される場合の誤識別の可能性を示す。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Sequential Stochastic Optimization in Separable Learning Environments [0.0]
我々は,様々な種類の教師付き学習概念を包含できる,不確実性の下での逐次的意思決定問題について考察する。
これらの問題は完全に観察された状態プロセスと部分的に観察された変調プロセスを持ち、状態プロセスは観察プロセスを通してのみ変調プロセスによって影響を受ける。
我々は、この幅広い問題のクラスを部分的に観察されたマルコフ決定過程(POMDP)としてモデル化する。
論文 参考訳(メタデータ) (2021-08-21T21:29:04Z) - Lifted Model Checking for Relational MDPs [12.574454799055026]
pCTL-REBELは、リレーショナルMDP上のpCTL特性を検証するためのリフトモデルチェック手法である。
pCTLモデル検査手法は, 無限領域であっても, リレーショナルMDPに対して決定可能であることを示す。
論文 参考訳(メタデータ) (2021-06-22T13:12:36Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Point-Based Methods for Model Checking in Partially Observable Markov
Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。
本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。
我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文 参考訳(メタデータ) (2020-01-11T23:09:25Z) - Value of structural health information in partially observable
stochastic environments [0.0]
情報の価値(VoI)と構造健康モニタリング(VoSHM)の理論的・計算的基礎を紹介し,研究する。
この結果から,POMDP政策はVoIの概念を本質的に活用し,各決定ステップにおいて最適な方法で観測行動の導出を行うことが示唆された。
論文 参考訳(メタデータ) (2019-12-28T22:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。