論文の概要: A Maintenance Planning Framework using Online and Offline Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.00808v2
- Date: Tue, 18 Apr 2023 08:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 18:41:50.825153
- Title: A Maintenance Planning Framework using Online and Offline Deep
Reinforcement Learning
- Title(参考訳): オンラインおよびオフライン深層強化学習を用いた保守計画フレームワーク
- Authors: Zaharah A. Bukhsh, Nils Jansen, Hajo Molegraaf
- Abstract要約: 本稿では,水管の劣化防止のための最適再生方針を自動決定するために,深部強化学習(DRL)ソリューションを開発した。
エージェントは、DQN(Deep Q-learning)を用いて、最小限の平均コストと失敗確率の低減で最適なポリシーを学ぶように訓練する。
DRLベースの政策は、標準的な予防的、是正的、および欲求的な代替案よりも改善されていることを実証する。
- 参考スコア(独自算出の注目度): 4.033107207078282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cost-effective asset management is an area of interest across several
industries. Specifically, this paper develops a deep reinforcement learning
(DRL) solution to automatically determine an optimal rehabilitation policy for
continuously deteriorating water pipes. We approach the problem of
rehabilitation planning in an online and offline DRL setting. In online DRL,
the agent interacts with a simulated environment of multiple pipes with
distinct lengths, materials, and failure rate characteristics. We train the
agent using deep Q-learning (DQN) to learn an optimal policy with minimal
average costs and reduced failure probability. In offline learning, the agent
uses static data, e.g., DQN replay data, to learn an optimal policy via a
conservative Q-learning algorithm without further interactions with the
environment. We demonstrate that DRL-based policies improve over standard
preventive, corrective, and greedy planning alternatives. Additionally,
learning from the fixed DQN replay dataset in an offline setting further
improves the performance. The results warrant that the existing deterioration
profiles of water pipes consisting of large and diverse states and action
trajectories provide a valuable avenue to learn rehabilitation policies in the
offline setting, which can be further fine-tuned using the simulator.
- Abstract(参考訳): コスト効率のよい資産管理は、いくつかの産業にまたがる関心の領域である。
具体的には,水管の連続劣化に対する最適再生方針を自動決定する深部強化学習(DRL)ソリューションを開発した。
オンラインおよびオフラインDRL設定におけるリハビリテーション計画の問題にアプローチする。
オンラインDRLでは、エージェントは異なる長さ、材料、故障率特性を持つ複数のパイプのシミュレーション環境と相互作用する。
エージェントは、DQN(Deep Q-learning)を用いて、最小限の平均コストと失敗確率の低減で最適なポリシーを学ぶように訓練する。
オフライン学習において、エージェントは静的データ、例えばDQNリプレイデータを使用して、環境とのさらなる相互作用なしに保守的なQ-ラーニングアルゴリズムを介して最適なポリシーを学習する。
我々は、drlベースのポリシーが、標準の予防、是正、および欲深い計画の代替案よりも改善できることを実証する。
さらに、オフライン環境で固定されたDQNリプレイデータセットから学習することで、パフォーマンスがさらに向上する。
その結果、大規模で多様な状態と行動軌跡からなる水道管の既存の劣化プロファイルは、オフライン環境でのリハビリ政策を学ぶための貴重な道筋となり、シミュレータを用いてさらに微調整することができる。
関連論文リスト
- Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation [38.95482624075353]
爆発するQ-関数に対処するために,学習値関数に対する勾配ペナルティを導入する。
次に、批判重み付き制約緩和による非最適行動に対する近接性制約を緩和する。
実験結果から,提案手法は方針制約付きオフラインRL法において,最適でない軌道を効果的に制御できることが示唆された。
論文 参考訳(メタデータ) (2022-10-19T11:22:36Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。