論文の概要: Value of structural health information in partially observable
stochastic environments
- arxiv url: http://arxiv.org/abs/1912.12534v2
- Date: Mon, 20 Jul 2020 16:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:35:28.357063
- Title: Value of structural health information in partially observable
stochastic environments
- Title(参考訳): 部分的に観察可能な確率環境における構造的健康情報の価値
- Authors: C.P. Andriotis, K.G. Papakonstantinou, E.N. Chatzi
- Abstract要約: 情報の価値(VoI)と構造健康モニタリング(VoSHM)の理論的・計算的基礎を紹介し,研究する。
この結果から,POMDP政策はVoIの概念を本質的に活用し,各決定ステップにおいて最適な方法で観測行動の導出を行うことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient integration of uncertain observations with decision-making
optimization is key for prescribing informed intervention actions, able to
preserve structural safety of deteriorating engineering systems. To this end,
it is necessary that scheduling of inspection and monitoring strategies be
objectively performed on the basis of their expected value-based gains that,
among others, reflect quantitative metrics such as the Value of Information
(VoI) and the Value of Structural Health Monitoring (VoSHM). In this work, we
introduce and study the theoretical and computational foundations of the above
metrics within the context of Partially Observable Markov Decision Processes
(POMDPs), thus alluding to a broad class of decision-making problems of
partially observable stochastic deteriorating environments that can be modeled
as POMDPs. Step-wise and life-cycle VoI and VoSHM definitions are devised and
their bounds are analyzed as per the properties stemming from the Bellman
equation and the resulting optimal value function. It is shown that a POMDP
policy inherently leverages the notion of VoI to guide observational actions in
an optimal way at every decision step, and that the permanent or intermittent
information provided by SHM or inspection visits, respectively, can only
improve the cost of this policy in the long-term, something that is not
necessarily true under locally optimal policies, typically adopted in
decision-making of structures and infrastructure. POMDP solutions are derived
based on point-based value iteration methods, and the various definitions are
quantified in stationary and non-stationary deteriorating environments, with
both infinite and finite planning horizons, featuring single- or
multi-component engineering systems.
- Abstract(参考訳): 不確定な観察と意思決定の最適化の効率的な統合は、インフォームド・インフォームメント・インベンション・アクションを規定し、劣化するエンジニアリングシステムの構造的安全性を保てるための鍵である。
この目的のためには、情報の価値(VoI)や構造健康モニタリングの価値(VoSHM)といった定量的指標を反映した、期待値に基づく検査・監視戦略を客観的に実施する必要がある。
本研究では, 部分観測可能なマルコフ決定過程(POMDP)の文脈において, 上記の指標の理論的, 計算的基礎を考察し, 部分的に観測可能な確率劣化環境において, POMDPとしてモデル化可能な幅広い意思決定問題に言及する。
ステップワイズおよびライフサイクルvoiおよびvoshmの定義を考案し、その境界をベルマン方程式とその結果得られる最適値関数に由来する性質に基づいて解析する。
本報告では,pomdp政策がvoiの概念を生かして,各決定段階における観察行動の指針として活用し,shmやインスペクション・インスペクションによって提供される永続的あるいは断続的な情報は,組織やインフラの意思決定において一般的に採用される,局所的最適政策の下では必ずしも当てはまらない,長期的にのみこの政策のコストを改善することができることを示した。
POMDPの解は点ベースの値反復法に基づいて導出され、様々な定義は、有限の計画地平線と有限の計画地平線を持つ定常および非定常の劣化環境で定量化される。
関連論文リスト
- Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Optimal Inspection and Maintenance Planning for Deteriorating Structural
Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。
本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。
その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文 参考訳(メタデータ) (2020-09-09T20:03:42Z) - Structural Estimation of Partially Observable Markov Decision Processes [3.1614382994158956]
プロセスの観測可能な履歴に基づいて,POMDPモデルのプリミティブの構造的推定を考察する。
本稿では, 最適機器交換への適用例として, 推定手法について述べる。
論文 参考訳(メタデータ) (2020-08-02T15:04:27Z) - Deep reinforcement learning driven inspection and maintenance planning
under incomplete information and constraints [0.0]
検査・保守方針の決定は、複雑な最適化問題を構成する。
本研究は,制約付き部分観測可能決定プロセス(POMDP)と多エージェント深層強化学習(DRL)の協調フレームワーク内で,これらの課題に対処するものである。
提案手法は, 十分に確立された政策ベースラインを上回り, 検査・介入行動の適正な処方の促進を図っている。
論文 参考訳(メタデータ) (2020-07-02T20:44:07Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。