論文の概要: Deep Multi-Objective Reinforcement Learning for Utility-Based Infrastructural Maintenance Optimization
- arxiv url: http://arxiv.org/abs/2406.06184v1
- Date: Mon, 10 Jun 2024 11:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:17:29.194742
- Title: Deep Multi-Objective Reinforcement Learning for Utility-Based Infrastructural Maintenance Optimization
- Title(参考訳): 実用性に基づくインフラ整備最適化のための深層多目的強化学習
- Authors: Jesse van Remmerden, Maurice Kenter, Diederik M. Roijers, Charalampos Andriotis, Yingqian Zhang, Zaharah Bukhsh,
- Abstract要約: Multi-Objective Deep Multi-Agent Actor-Critic (MO-DCMAC) は、インフラ整備最適化のための多目的強化学習(MORL)手法である。
従来の単目的RL法は、崩壊確率やコストなどの複数の目的を特異な報酬信号に組み合わせている。
ユーティリティ関数が非線形であっても,MO-DCMACは複数の目的に対して直接的にポリシーを最適化できることを示す。
- 参考スコア(独自算出の注目度): 1.7482569079741022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Multi-Objective Deep Centralized Multi-Agent Actor-Critic (MO- DCMAC), a multi-objective reinforcement learning (MORL) method for infrastructural maintenance optimization, an area traditionally dominated by single-objective reinforcement learning (RL) approaches. Previous single-objective RL methods combine multiple objectives, such as probability of collapse and cost, into a singular reward signal through reward-shaping. In contrast, MO-DCMAC can optimize a policy for multiple objectives directly, even when the utility function is non-linear. We evaluated MO-DCMAC using two utility functions, which use probability of collapse and cost as input. The first utility function is the Threshold utility, in which MO-DCMAC should minimize cost so that the probability of collapse is never above the threshold. The second is based on the Failure Mode, Effects, and Criticality Analysis (FMECA) methodology used by asset managers to asses maintenance plans. We evaluated MO-DCMAC, with both utility functions, in multiple maintenance environments, including ones based on a case study of the historical quay walls of Amsterdam. The performance of MO-DCMAC was compared against multiple rule-based policies based on heuristics currently used for constructing maintenance plans. Our results demonstrate that MO-DCMAC outperforms traditional rule-based policies across various environments and utility functions.
- Abstract(参考訳): 本稿では,MORL(Multi-Objective Deep Centralized Multi-Agent Actor-Critic)手法を提案する。
従来の単目的RL法は、崩壊確率やコストといった複数の目的を、報酬形成を通じて特異な報酬信号に組み合わせている。
対照的に、MO-DCMACはユーティリティ関数が非線形であっても、複数の目的に対して直接ポリシーを最適化することができる。
筆者らは2つのユーティリティ関数を用いてMO-DCMACを評価し, 倒壊確率とコストを入力として用いた。
最初のユーティリティ関数はThresholdユーティリティであり、MO-DCMACはコストを最小化し、崩壊確率がしきい値を超えないようにすべきである。
2つ目は、資産運用者が保守計画を評価するために使用するFMECA(Failure Mode, Effects, and Criticality Analysis)方法論に基づいている。
本研究は,アムステルダムの歴史的岸壁を事例として,MO-DCMACと実用機能を組み合わせた複数保守環境の評価を行った。
MO-DCMACの性能は、現在メンテナンス計画の構築に使われているヒューリスティックに基づく複数のルールベースのポリシーと比較された。
以上の結果から,MO-DCMACは様々な環境やユーティリティ機能にまたがる従来のルールベースのポリシーよりも優れていた。
関連論文リスト
- In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Utility-Based Reinforcement Learning: Unifying Single-objective and
Multi-objective Reinforcement Learning [3.292607871053364]
実用性に基づくパラダイムを、単目的強化学習(RL)の文脈に拡張する。
本稿では,不確実な目標,リスク認識型RL,割引,安全RLに関連するタスクに対して,多目的学習を行う能力などの潜在的なメリットについて概説する。
また、ユーティリティベースのアプローチを採用する際のアルゴリズム的意味についても検討する。
論文 参考訳(メタデータ) (2024-02-05T01:42:28Z) - On Building Myopic MPC Policies using Supervised Learning [0.0]
本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。
これは、非常に短い予測地平線を持つミオピックMPCのコスト・ツー・ゴー関数として使用できる。
論文 参考訳(メタデータ) (2024-01-23T08:08:09Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。