論文の概要: POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance
- arxiv url: http://arxiv.org/abs/2307.08082v1
- Date: Sun, 16 Jul 2023 15:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:54:32.490396
- Title: POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance
- Title(参考訳): 深層強化学習によるpomdp推論とロバストな解法:鉄道最適保守への適用
- Authors: Giacomo Arcieri, Cyprien Hoelzl, Oliver Schwery, Daniel Straub,
Konstantinos G. Papakonstantinou, Eleni Chatzi
- Abstract要約: 深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。
まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。
パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
- 参考スコア(独自算出の注目度): 0.7046417074932257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) can model complex
sequential decision-making problems under stochastic and uncertain
environments. A main reason hindering their broad adoption in real-world
applications is the lack of availability of a suitable POMDP model or a
simulator thereof. Available solution algorithms, such as Reinforcement
Learning (RL), require the knowledge of the transition dynamics and the
observation generating process, which are often unknown and non-trivial to
infer. In this work, we propose a combined framework for inference and robust
solution of POMDPs via deep RL. First, all transition and observation model
parameters are jointly inferred via Markov Chain Monte Carlo sampling of a
hidden Markov model, which is conditioned on actions, in order to recover full
posterior distributions from the available data. The POMDP with uncertain
parameters is then solved via deep RL techniques with the parameter
distributions incorporated into the solution via domain randomization, in order
to develop solutions that are robust to model uncertainty. As a further
contribution, we compare the use of transformers and long short-term memory
networks, which constitute model-free RL solutions, with a
model-based/model-free hybrid approach. We apply these methods to the
real-world problem of optimal maintenance planning for railway assets.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)は、確率的かつ不確実な環境下で複雑な逐次決定問題をモデル化することができる。
現実の応用において広く採用されるのを妨げる主な理由は、適切なPOMDPモデルやシミュレータが存在しないことである。
強化学習(Reinforcement Learning, RL)のような利用可能な解アルゴリズムは、遷移力学と観測生成過程の知識を必要とする。
本研究では,深いRLを通したPOMDPの推論とロバストな解を組み合わせたフレームワークを提案する。
第一に、全ての遷移および観測モデルパラメータは、利用可能なデータから完全な後方分布を回復するために、動作を条件とした隠れマルコフモデルのマルコフ連鎖モンテカルロサンプリングによって共同で推定される。
パラメータの不確かさを持つPOMDPは、不確かさをモデル化する堅牢なソリューションを開発するために、パラメータ分布を領域ランダム化によって解に組み込んだ深いRL手法によって解決される。
さらに,モデルベース/モデルフリーハイブリッドアプローチを用いて,モデルフリーなRLソリューションを構成するトランスフォーマーと長期短期記憶ネットワークの利用を比較した。
これらの手法を鉄道資産の最適保守計画の現実問題に適用する。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。