論文の概要: Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs
- arxiv url: http://arxiv.org/abs/2303.10302v1
- Date: Sat, 18 Mar 2023 01:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 20:12:20.947597
- Title: Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs
- Title(参考訳): 予算制約付き多成分PMDPの福祉最大化アルゴリズム
- Authors: Manav Vora, Pranay Thangeda, Michael N. Grussing, Melkior Ornik
- Abstract要約: 本稿では,多成分予算制約POMDPの最適ポリシを求めるアルゴリズムを提案する。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 2.007262412327553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) provide an efficient
way to model real-world sequential decision making processes. Motivated by the
problem of maintenance and inspection of a group of infrastructure components
with independent dynamics, this paper presents an algorithm to find the optimal
policy for a multi-component budget-constrained POMDP. We first introduce a
budgeted-POMDP model (b-POMDP) which enables us to find the optimal policy for
a POMDP while adhering to budget constraints. Next, we prove that the value
function or maximal collected reward for a b-POMDP is a concave function of the
budget for the finite horizon case. Our second contribution is an algorithm to
calculate the optimal policy for a multi-component budget-constrained POMDP by
finding the optimal budget split among the individual component POMDPs. The
optimal budget split is posed as a welfare maximization problem and the
solution is computed by exploiting the concave nature of the value function. We
illustrate the effectiveness of the proposed algorithm by proposing a
maintenance and inspection policy for a group of real-world infrastructure
components with different deterioration dynamics, inspection and maintenance
costs. We show that the proposed algorithm vastly outperforms the policy
currently used in practice.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化する効率的な方法を提供する。
本稿では,独立なダイナミクスを持つインフラストラクチャコンポーネント群の保守・検査の問題に動機づけられ,多成分予算制約型pomdpの最適ポリシーを求めるアルゴリズムを提案する。
まず、予算制約に固執しながら、POMDPの最適ポリシーを見つけることができる予算付きPOMDPモデル(b-POMDP)を導入する。
次に、b-POMDP に対する値関数や最大値収集報酬が有限地平線の場合の予算の凹凸関数であることを証明する。
第2のコントリビューションは、各コンポーネントのPOMDP間で最適な予算分割を求めることで、多成分の予算制約付きPOMDPの最適ポリシーを計算するアルゴリズムである。
最適予算分割は福祉最大化問題として提起され、その解は値関数の凹凸特性を利用して計算される。
本稿では, 劣化ダイナミクス, 検査コスト, 保守コストの異なる実世界のインフラコンポーネント群に対して, 保守・検査ポリシーを提案することにより, 提案手法の有効性を示す。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
関連論文リスト
- Capacity-Aware Planning and Scheduling in Budget-Constrained Monotonic MDPs: A Meta-RL Approach [7.385321178884467]
多くの実世界のシーケンシャル修復問題は、単調マルコフ決定プロセス(MDP)を用いて効果的にモデル化できる。
本研究は,多成分単調MDPを予算とキャパシティの制約で解く問題に対処する。
論文 参考訳(メタデータ) (2024-10-28T17:48:45Z) - Solving Truly Massive Budgeted Monotonic POMDPs with Oracle-Guided Meta-Reinforcement Learning [1.1470070927586018]
本稿では,予算制約付き多成分単調POMDPの解法について考察する。
多くのコンポーネントに対して、現在の手法でそのようなPOMDPを解くことは、計算的に難解である。
我々は, 独立予算制約単成分POMDPのそれぞれを解くために, オラクル誘導メタトレーニングプロキシポリシー最適化 (PPO) アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-13T20:20:58Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。