論文の概要: An Intentional Forgetting-Driven Self-Healing Method For Deep
Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2308.12445v1
- Date: Wed, 23 Aug 2023 21:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:05:40.215260
- Title: An Intentional Forgetting-Driven Self-Healing Method For Deep
Reinforcement Learning Systems
- Title(参考訳): 深層強化学習システムのための意図的フォッティング駆動型自己修復法
- Authors: Ahmed Haj Yahmed, Rached Bouchoucha, Houssem Ben Braiek, Foutse Khomh
- Abstract要約: 連続学習(CL)は、環境条件の変化に応じてDRLエージェントを適応するための固有の自己修復手法である。
最近の研究では、これらの環境変動がCLを長い、あるいは失敗した、治癒サイクルに導く傾向があることが示されている。
DRLシステムに対する効果的な自己修復手法であるDRL(Dr. DRL)を提案する。
- 参考スコア(独自算出の注目度): 11.056524152645842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) is increasingly applied in large-scale
productions like Netflix and Facebook. As with most data-driven systems, DRL
systems can exhibit undesirable behaviors due to environmental drifts, which
often occur in constantly-changing production settings. Continual Learning (CL)
is the inherent self-healing approach for adapting the DRL agent in response to
the environment's conditions shifts. However, successive shifts of considerable
magnitude may cause the production environment to drift from its original
state. Recent studies have shown that these environmental drifts tend to drive
CL into long, or even unsuccessful, healing cycles, which arise from
inefficiencies such as catastrophic forgetting, warm-starting failure, and slow
convergence. In this paper, we propose Dr. DRL, an effective self-healing
approach for DRL systems that integrates a novel mechanism of intentional
forgetting into vanilla CL to overcome its main issues. Dr. DRL deliberately
erases the DRL system's minor behaviors to systematically prioritize the
adaptation of the key problem-solving skills. Using well-established DRL
algorithms, Dr. DRL is compared with vanilla CL on various drifted
environments. Dr. DRL is able to reduce, on average, the healing time and
fine-tuning episodes by, respectively, 18.74% and 17.72%. Dr. DRL successfully
helps agents to adapt to 19.63% of drifted environments left unsolved by
vanilla CL while maintaining and even enhancing by up to 45% the obtained
rewards for drifted environments that are resolved by both approaches.
- Abstract(参考訳): 深層強化学習(DRL)は、NetflixやFacebookのような大規模プロダクションにますます適用されている。
多くのデータ駆動システムと同様に、DRLシステムは環境の漂流によって望ましくない振る舞いを見せることができる。
連続学習(CL)は、環境条件の変化に応じてDRLエージェントを適応するための固有の自己修復手法である。
しかし、かなりの規模の連続的なシフトによって、生産環境が元の状態から漂流する可能性がある。
近年の研究では、これらの環境ドリフトがCLを長い、あるいは失敗に導く傾向があり、これは破滅的な忘れ、温暖化障害、緩やかな収束などの非効率性から生じる。
本稿では,DRLシステムに対する効果的な自己修復手法であるDRL(Dr. DRL)を提案する。
DRLは、DRLシステムのマイナーな振る舞いを意図的に消去し、重要な問題解決スキルの適応を体系的に優先順位付けする。
DRLアルゴリズムの確立により、DRLは様々なドリフト環境でバニラCLと比較される。
DRLは平均して、治癒時間と微調整のエピソードをそれぞれ18.74%と17.72%減らすことができる。
Dr. DRLは、バニラCLが未解決のまま残した19.63%の漂流環境への適応に成功し、両方のアプローチで解決した漂流環境に対する最大45%の報酬を維持・増強する。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Decision Theory-Guided Deep Reinforcement Learning for Fast Learning [15.751078984462731]
Decision Theory-Guided Deep Reinforcement Learning (DT-Guided DRL)
本稿では,Decision Theory-Guided Deep Reinforcement Learning (DT-Guided DRL)を提案する。
論文 参考訳(メタデータ) (2024-02-08T19:47:34Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Testing of Deep Reinforcement Learning Agents with Surrogate Models [10.243488468625786]
近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。
本稿では,このようなエージェントを探索的に検証する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T06:21:39Z) - Toward Safe and Accelerated Deep Reinforcement Learning for
Next-Generation Wireless Networks [21.618559590818236]
本稿では,DRL ベースの RRM ソリューションを開発する際に直面する2つの課題について論じる。
特に,DRLアルゴリズムが示す遅延収束と性能不安定性を緩和する,安全かつ高速化されたDRLベースのRRMソリューションの必要性について論じる。
論文 参考訳(メタデータ) (2022-09-16T04:50:49Z) - Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path [40.4378338001229]
本稿では,各段階における報酬対ゴーのテールを最大化することを目的とした,反復型CVaR RL(Iterated CVaR RL)という,新たなエピソード型リスク感応型強化学習(RL)問題について検討する。
この定式化は、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
論文 参考訳(メタデータ) (2022-06-06T15:24:06Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。
循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。
本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-31T10:06:02Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。