Fugu-MT 論文翻訳(概要): Welfare Maximization Algorithm for Solving Budget-Constrained Multi-Component POMDPs

論文の概要: Welfare Maximization Algorithm for Solving Budget-Constrained Multi-Component POMDPs

arxiv url: http://arxiv.org/abs/2303.10302v2
Date: Sun, 14 May 2023 14:21:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 22:58:23.643647
Title: Welfare Maximization Algorithm for Solving Budget-Constrained Multi-Component POMDPs
Title（参考訳）: 予算制約付き多成分PMDPの福祉最大化アルゴリズム
Authors: Manav Vora, Pranay Thangeda, Michael N. Grussing, Melkior Ornik
Abstract要約: 本稿では,多成分予算制約POMDPの最適ポリシを求めるアルゴリズムを提案する。提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
参考スコア（独自算出の注目度）: 2.007262412327553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Partially Observable Markov Decision Processes (POMDPs) provide an efficient way to model real-world sequential decision making processes. Motivated by the problem of maintenance and inspection of a group of infrastructure components with independent dynamics, this paper presents an algorithm to find the optimal policy for a multi-component budget-constrained POMDP. We first introduce a budgeted-POMDP model (b-POMDP) which enables us to find the optimal policy for a POMDP while adhering to budget constraints. Next, we prove that the value function or maximal collected reward for a b-POMDP is a concave function of the budget for the finite horizon case. Our second contribution is an algorithm to calculate the optimal policy for a multi-component budget-constrained POMDP by finding the optimal budget split among the individual component POMDPs. The optimal budget split is posed as a welfare maximization problem and the solution is computed by exploiting the concave nature of the value function. We illustrate the effectiveness of the proposed algorithm by proposing a maintenance and inspection policy for a group of real-world infrastructure components with different deterioration dynamics, inspection and maintenance costs. We show that the proposed algorithm vastly outperforms the policy currently used in practice.
Abstract（参考訳）: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化する効率的な方法を提供する。本稿では,独立なダイナミクスを持つインフラストラクチャコンポーネント群の保守・検査の問題に動機づけられ,多成分予算制約型pomdpの最適ポリシーを求めるアルゴリズムを提案する。まず、予算制約に固執しながら、POMDPの最適ポリシーを見つけることができる予算付きPOMDPモデル(b-POMDP)を導入する。次に、b-POMDP に対する値関数や最大値収集報酬が有限地平線の場合の予算の凹凸関数であることを証明する。第2のコントリビューションは、各コンポーネントのPOMDP間で最適な予算分割を求めることで、多成分の予算制約付きPOMDPの最適ポリシーを計算するアルゴリズムである。最適予算分割は福祉最大化問題として提起され、その解は値関数の凹凸特性を利用して計算される。本稿では, 劣化ダイナミクス, 検査コスト, 保守コストの異なる実世界のインフラコンポーネント群に対して, 保守・検査ポリシーを提案することにより, 提案手法の有効性を示す。提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。

関連論文リスト

Constrained and Robust Policy Synthesis with Satisfiability-Modulo-Probabilistic-Model-Checking [4.064849471241967]
本稿では,任意の構造制約を受けるロバストポリシを効果的に計算するための最初のアプローチを提案する。数百のベンチマークの実験は、制約付きかつ堅牢なポリシー合成の実現可能性を示している。
論文参考訳（メタデータ） (2025-11-11T10:28:42Z)
The $φ$-PCA Framework: A Unified and Efficiency-Preserving Approach with Robust Variants [0.0]
我々は、ロバストで分散したPCAの統一的な定式化を提供する$phi$-PCAフレームワークを紹介した。我々は,$phi$-PCAの根底にある分割集約原理が,ロバストで効率的な保存手法を開発するための一般的な戦略であることを示す。
論文参考訳（メタデータ） (2025-10-15T05:21:11Z)
Efficient Computation of Blackwell Optimal Policies using Rational Functions [3.0529230554642752]
決定問題(MDPs)は、様々な領域にわたるシーケンシャルな意思決定をモデル化するための基礎的な枠組みを提供する。割引された最適性は短期的な報酬を過度に優先し、一方平均最適性は強い構造的仮定に依存する。 Blackwellの最適性はこれらの課題に対処し、ディスカウントおよび平均報酬フレームワークの両方で最適性を保証する堅牢で包括的な基準を提供する。
論文参考訳（メタデータ） (2025-08-25T17:41:30Z)
Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文参考訳（メタデータ） (2025-05-19T17:58:44Z)
Capacity-Aware Planning and Scheduling in Budget-Constrained Monotonic MDPs: A Meta-RL Approach [7.385321178884467]
多くの実世界のシーケンシャル修復問題は、単調マルコフ決定プロセス(MDP)を用いて効果的にモデル化できる。本研究は,多成分単調MDPを予算とキャパシティの制約で解く問題に対処する。
論文参考訳（メタデータ） (2024-10-28T17:48:45Z)
Solving Truly Massive Budgeted Monotonic POMDPs with Oracle-Guided Meta-Reinforcement Learning [1.1470070927586018]
本稿では,予算制約付き多成分単調POMDPの解法について考察する。多くのコンポーネントに対して、現在の手法でそのようなPOMDPを解くことは、計算的に難解である。我々は, 独立予算制約単成分POMDPのそれぞれを解くために, オラクル誘導メタトレーニングプロキシポリシー最適化 (PPO) アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-13T20:20:58Z)
Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文参考訳（メタデータ） (2024-06-23T16:22:40Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。 $L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文参考訳（メタデータ） (2024-03-11T10:14:06Z)
Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文参考訳（メタデータ） (2022-08-17T18:49:53Z)
Efficient Policy Iteration for Robust Markov Decision Processes via Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文参考訳（メタデータ） (2022-05-28T04:05:20Z)
Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文参考訳（メタデータ） (2021-09-09T07:52:35Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文参考訳（メタデータ） (2020-08-10T09:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。