論文の概要: Sequential Stochastic Optimization in Separable Learning Environments
- arxiv url: http://arxiv.org/abs/2108.09585v1
- Date: Sat, 21 Aug 2021 21:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:55:58.417181
- Title: Sequential Stochastic Optimization in Separable Learning Environments
- Title(参考訳): 分離学習環境における逐次確率最適化
- Authors: R. Reid Bishop and Chelsea C. White III
- Abstract要約: 我々は,様々な種類の教師付き学習概念を包含できる,不確実性の下での逐次的意思決定問題について考察する。
これらの問題は完全に観察された状態プロセスと部分的に観察された変調プロセスを持ち、状態プロセスは観察プロセスを通してのみ変調プロセスによって影響を受ける。
我々は、この幅広い問題のクラスを部分的に観察されたマルコフ決定過程(POMDP)としてモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a class of sequential decision-making problems under uncertainty
that can encompass various types of supervised learning concepts. These
problems have a completely observed state process and a partially observed
modulation process, where the state process is affected by the modulation
process only through an observation process, the observation process only
observes the modulation process, and the modulation process is exogenous to
control. We model this broad class of problems as a partially observed Markov
decision process (POMDP). The belief function for the modulation process is
control invariant, thus separating the estimation of the modulation process
from the control of the state process. We call this specially structured POMDP
the separable POMDP, or SEP-POMDP, and show it (i) can serve as a model for a
broad class of application areas, e.g., inventory control, finance, healthcare
systems, (ii) inherits value function and optimal policy structure from a set
of completely observed MDPs, (iii) can serve as a bridge between classical
models of sequential decision making under uncertainty having fully specified
model artifacts and such models that are not fully specified and require the
use of predictive methods from statistics and machine learning, and (iv) allows
for specialized approximate solution procedures.
- Abstract(参考訳): 我々は,様々な種類の教師付き学習概念を包含する不確実性の下での逐次的意思決定問題を考える。
これらの問題は、完全に観察された状態過程と部分的に観測された変調過程を有し、状態過程は観察過程を通してのみ変調過程に影響され、観察過程は変調過程のみを観察し、変調過程は制御に外在する。
我々は,この幅広い問題を部分観察マルコフ決定過程(pomdp)としてモデル化する。
変調過程の信念関数は制御不変であり、状態過程の制御から変調過程の推定を分離する。
We call this specially structured POMDP the separable POMDP, or SEP-POMDP, and show it (i) can serve as a model for a broad class of application areas, e.g., inventory control, finance, healthcare systems, (ii) inherits value function and optimal policy structure from a set of completely observed MDPs, (iii) can serve as a bridge between classical models of sequential decision making under uncertainty having fully specified model artifacts and such models that are not fully specified and require the use of predictive methods from statistics and machine learning, and (iv) allows for specialized approximate solution procedures.
関連論文リスト
- Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Monitoring multimode processes: a modified PCA algorithm with continual
learning ability [2.5004754622137515]
ローカル監視モデルを以前のモードの特徴を覚えさせる効果的な方法かもしれません。
修正PCAアルゴリズムは、マルチモードプロセスを監視するための連続学習機能によって構築される。
それはPCA-EWCと呼ばれ、現在のモードでPCAモデルが確立されたときに以前のモードの重要な特徴が保存されます。
論文 参考訳(メタデータ) (2020-12-13T12:09:38Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Structural Estimation of Partially Observable Markov Decision Processes [3.1614382994158956]
プロセスの観測可能な履歴に基づいて,POMDPモデルのプリミティブの構造的推定を考察する。
本稿では, 最適機器交換への適用例として, 推定手法について述べる。
論文 参考訳(メタデータ) (2020-08-02T15:04:27Z) - Adversarial System Variant Approximation to Quantify Process Model
Generalization [2.538209532048867]
プロセスマイニングでは、プロセスモデルはイベントログから抽出され、複数の品質次元を用いて一般的に評価される。
この問題を解決するために,Adversarial System Variant Approximation (AVATAR)と呼ばれる新しいディープラーニングベースの手法が提案されている。
論文 参考訳(メタデータ) (2020-03-26T22:06:18Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。