論文の概要: Inference and dynamic decision-making for deteriorating systems with
probabilistic dependencies through Bayesian networks and deep reinforcement
learning
- arxiv url: http://arxiv.org/abs/2209.01092v1
- Date: Fri, 2 Sep 2022 14:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 11:56:04.157665
- Title: Inference and dynamic decision-making for deteriorating systems with
probabilistic dependencies through Bayesian networks and deep reinforcement
learning
- Title(参考訳): ベイジアンネットワークと深層強化学習による確率的依存を持つ劣化系の推論と動的決定
- Authors: Pablo G. Morato, Charalampos P. Andriotis, Konstantinos G.
Papakonstantinou, Philippe Rigo
- Abstract要約: 劣化する環境に露呈するエンジニアリングシステムに対して,不確実性を考慮した推論と意思決定のための効率的なアルゴリズムフレームワークを提案する。
政策最適化の観点では、深層分散型マルチエージェントアクター・クリティカル(DDMAC)強化学習アプローチを採用する。
その結果、DDMACポリシーは最先端のアプローチと比較して大きな利点をもたらすことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of modern environmental and societal concerns, there is an
increasing demand for methods able to identify management strategies for civil
engineering systems, minimizing structural failure risks while optimally
planning inspection and maintenance (I&M) processes. Most available methods
simplify the I&M decision problem to the component level due to the
computational complexity associated with global optimization methodologies
under joint system-level state descriptions. In this paper, we propose an
efficient algorithmic framework for inference and decision-making under
uncertainty for engineering systems exposed to deteriorating environments,
providing optimal management strategies directly at the system level. In our
approach, the decision problem is formulated as a factored partially observable
Markov decision process, whose dynamics are encoded in Bayesian network
conditional structures. The methodology can handle environments under equal or
general, unequal deterioration correlations among components, through Gaussian
hierarchical structures and dynamic Bayesian networks. In terms of policy
optimization, we adopt a deep decentralized multi-agent actor-critic (DDMAC)
reinforcement learning approach, in which the policies are approximated by
actor neural networks guided by a critic network. By including deterioration
dependence in the simulated environment, and by formulating the cost model at
the system level, DDMAC policies intrinsically consider the underlying
system-effects. This is demonstrated through numerical experiments conducted
for both a 9-out-of-10 system and a steel frame under fatigue deterioration.
Results demonstrate that DDMAC policies offer substantial benefits when
compared to state-of-the-art heuristic approaches. The inherent consideration
of system-effects by DDMAC strategies is also interpreted based on the learned
policies.
- Abstract(参考訳): 現代の環境・社会問題においては、検査・保守(I&M)プロセスを最適に計画しながら構造的故障リスクを最小限に抑えつつ、土木システムの管理戦略を特定できる手法の需要が高まっている。
利用可能なほとんどの方法は、共同システムレベルの状態記述の下でのグローバル最適化手法に関連する計算複雑性のため、I&M決定問題をコンポーネントレベルまで単純化する。
本稿では,システムレベルでの最適管理戦略を提供するため,環境劣化に晒されたエンジニアリングシステムの不確実性下での推論と意思決定のための効率的なアルゴリズムフレームワークを提案する。
本手法では,決定問題は,ベイズネットワーク条件構造に動的にエンコードされる部分可観測マルコフ決定過程として定式化される。
この手法は、ガウス階層構造と動的ベイズネットワークを通して、成分間の等しく不等な劣化相関の環境を扱うことができる。
政策最適化の観点からは,批判ネットワークによって誘導されるアクタニューラルネットワークによって近似される,分散型マルチエージェントアクタ-クリティック(ddmac)強化学習手法を採用する。
シミュレーション環境での劣化依存性を含め、システムレベルでのコストモデルを定式化することにより、DDMACポリシーは本質的にシステム効果を考察する。
疲労劣化下で9-out-of-10系と鋼枠の両方で数値実験を行った。
その結果、DDMACポリシーは最先端のヒューリスティックアプローチと比較して大きな利点をもたらすことが示された。
DDMAC戦略によるシステム効果の本質的な考察も、学習方針に基づいて解釈される。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Multi-agent deep reinforcement learning with centralized training and
decentralized execution for transportation infrastructure management [0.0]
本稿では,大規模交通インフラシステムをライフサイクル上で管理するための多エージェント深層強化学習(DRL)フレームワークを提案する。
このようなエンジニアリングシステムのライフサイクル管理は計算集約的な作業であり、適切なシーケンシャルな検査とメンテナンスの決定を必要とする。
論文 参考訳(メタデータ) (2024-01-23T02:52:36Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission [0.0]
複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。
本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
論文 参考訳(メタデータ) (2023-02-21T13:39:40Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Optimal Inspection and Maintenance Planning for Deteriorating Structural
Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。
本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。
その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文 参考訳(メタデータ) (2020-09-09T20:03:42Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。