論文の概要: Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs
- arxiv url: http://arxiv.org/abs/2303.10302v2
- Date: Sun, 14 May 2023 14:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 22:58:23.643647
- Title: Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs
- Title(参考訳): 予算制約付き多成分PMDPの福祉最大化アルゴリズム
- Authors: Manav Vora, Pranay Thangeda, Michael N. Grussing, Melkior Ornik
- Abstract要約: 本稿では,多成分予算制約POMDPの最適ポリシを求めるアルゴリズムを提案する。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 2.007262412327553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) provide an efficient
way to model real-world sequential decision making processes. Motivated by the
problem of maintenance and inspection of a group of infrastructure components
with independent dynamics, this paper presents an algorithm to find the optimal
policy for a multi-component budget-constrained POMDP. We first introduce a
budgeted-POMDP model (b-POMDP) which enables us to find the optimal policy for
a POMDP while adhering to budget constraints. Next, we prove that the value
function or maximal collected reward for a b-POMDP is a concave function of the
budget for the finite horizon case. Our second contribution is an algorithm to
calculate the optimal policy for a multi-component budget-constrained POMDP by
finding the optimal budget split among the individual component POMDPs. The
optimal budget split is posed as a welfare maximization problem and the
solution is computed by exploiting the concave nature of the value function. We
illustrate the effectiveness of the proposed algorithm by proposing a
maintenance and inspection policy for a group of real-world infrastructure
components with different deterioration dynamics, inspection and maintenance
costs. We show that the proposed algorithm vastly outperforms the policy
currently used in practice.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化する効率的な方法を提供する。
本稿では,独立なダイナミクスを持つインフラストラクチャコンポーネント群の保守・検査の問題に動機づけられ,多成分予算制約型pomdpの最適ポリシーを求めるアルゴリズムを提案する。
まず、予算制約に固執しながら、POMDPの最適ポリシーを見つけることができる予算付きPOMDPモデル(b-POMDP)を導入する。
次に、b-POMDP に対する値関数や最大値収集報酬が有限地平線の場合の予算の凹凸関数であることを証明する。
第2のコントリビューションは、各コンポーネントのPOMDP間で最適な予算分割を求めることで、多成分の予算制約付きPOMDPの最適ポリシーを計算するアルゴリズムである。
最適予算分割は福祉最大化問題として提起され、その解は値関数の凹凸特性を利用して計算される。
本稿では, 劣化ダイナミクス, 検査コスト, 保守コストの異なる実世界のインフラコンポーネント群に対して, 保守・検査ポリシーを提案することにより, 提案手法の有効性を示す。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Scalable Online Exploration via Coverability [51.32148652451376]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Recursively-Constrained Partially Observable Markov Decision Processes [14.46993581579248]
制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。
最適C-POMDPポリシーはベルマンの最適性原理に反する可能性があり、したがって直観的行動を示す可能性がある。
再帰的制約付きPOMDP (Recursively-Constrained POMDP, RC-POMDP) という新しい定式化を導入する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。