論文の概要: Mitigating the Stability-Plasticity Dilemma in Adaptive Train Scheduling with Curriculum-Driven Continual DQN Expansion
- arxiv url: http://arxiv.org/abs/2408.09838v1
- Date: Mon, 19 Aug 2024 09:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:54:42.550950
- Title: Mitigating the Stability-Plasticity Dilemma in Adaptive Train Scheduling with Curriculum-Driven Continual DQN Expansion
- Title(参考訳): プログラム駆動連続DQN拡張による適応列車スケジューリングにおける安定性-塑性ジレンマの緩和
- Authors: Achref Jaziri, Etienne Künzel, Visvanathan Ramesh,
- Abstract要約: 継続学習エージェントは、より複雑な振る舞いを開発するために、以前の経験に基づいて構築される。
しかし、これらのシステムをスケールすることは、特に以前のポリシーの保存と現在の環境への新しいポリシーの適応のバランスをとる上で大きな課題となる。
このバランスは安定性・塑性ジレンマと呼ばれ、特に列車スケジューリング問題のような複雑なマルチエージェント領域で顕著である。
- 参考スコア(独自算出の注目度): 3.2635082758250693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A continual learning agent builds on previous experiences to develop increasingly complex behaviors by adapting to non-stationary and dynamic environments while preserving previously acquired knowledge. However, scaling these systems presents significant challenges, particularly in balancing the preservation of previous policies with the adaptation of new ones to current environments. This balance, known as the stability-plasticity dilemma, is especially pronounced in complex multi-agent domains such as the train scheduling problem, where environmental and agent behaviors are constantly changing, and the search space is vast. In this work, we propose addressing these challenges in the train scheduling problem using curriculum learning. We design a curriculum with adjacent skills that build on each other to improve generalization performance. Introducing a curriculum with distinct tasks introduces non-stationarity, which we address by proposing a new algorithm: Continual Deep Q-Network (DQN) Expansion (CDE). Our approach dynamically generates and adjusts Q-function subspaces to handle environmental changes and task requirements. CDE mitigates catastrophic forgetting through EWC while ensuring high plasticity using adaptive rational activation functions. Experimental results demonstrate significant improvements in learning efficiency and adaptability compared to RL baselines and other adapted methods for continual learning, highlighting the potential of our method in managing the stability-plasticity dilemma in the adaptive train scheduling setting.
- Abstract(参考訳): 継続学習エージェントは、以前取得した知識を保存しながら、非定常的および動的環境に適応することで、より複雑な振る舞いを開発するために、以前の経験に基づいて構築される。
しかし、これらのシステムをスケールすることは、特に以前のポリシーの保存と現在の環境への新しいポリシーの適応のバランスの点で大きな課題を呈している。
このバランスは安定性・塑性ジレンマ(英語版)と呼ばれ、特に列車スケジューリング問題(英語版)のような複雑なマルチエージェント領域において、環境やエージェントの挙動が常に変化しており、探索空間は広い。
本研究では,カリキュラム学習を用いた列車スケジューリング問題において,これらの課題に対処することを提案する。
一般化性能を向上させるために,隣り合うスキルを持つカリキュラムを設計する。
異なるタスクによるカリキュラムの導入は非定常性を導入し、新しいアルゴリズムである連続的深層Qネットワーク(CDE)を提案する。
提案手法は,環境変化やタスク要求に対処するためのQ関数部分空間を動的に生成・調整する。
CDEは適応的合理的活性化関数を用いて高い可塑性を確保しつつ、EWCを介して破滅的な忘れを緩和する。
実験の結果,RLベースラインや他の適応学習法と比較して,学習効率と適応性に大きな改善が見られ,適応列車スケジューリング設定における安定性・塑性ジレンマ管理における本手法の可能性を強調した。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Dynamic Weight Adjusting Deep Q-Networks for Real-Time Environmental Adaptation [3.2162648244439684]
本研究では、動的重み調整をDeep Q-Networks(DQN)に統合し、適応性を高めることを検討する。
これらの調整は、経験リプレイにおけるサンプリング確率を変更して、モデルがより重要な遷移に焦点を合わせるようにすることで実施する。
動的環境をうまくナビゲートする新しいDQNのためのインタラクティブ・ダイナミック・アセスメント・メソッド(IDEM)を設計する。
論文 参考訳(メタデータ) (2024-11-04T19:47:23Z) - Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning [6.388725318524439]
生涯の強化学習における主要な課題は、可塑性の喪失である。
TRACと呼ばれる長寿命RLのパラメータフリーチューニングを提案する。
Procgen、Atari、Gym Controlの環境での実験では、TRACは驚くほどうまく機能している。
論文 参考訳(メタデータ) (2024-05-26T17:38:44Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks
in Continual Learning [23.15206507040553]
本稿では、ニューラルネットワークに現在の課題を学習する能力を持たせるために、補助的ネットワーク継続学習(ANCL)を提案する。
ANCLは、主に安定性に焦点を当てた継続的な学習モデルに可塑性を促進する補助ネットワークを付加する。
より具体的には、提案するフレームワークは、可塑性と安定性を自然に補間する正規化器として実現されている。
論文 参考訳(メタデータ) (2023-03-16T17:00:42Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Balancing Stability and Plasticity through Advanced Null Space in
Continual Learning [77.94570903726856]
我々は,従来のタスクの古いデータを格納することなく,安定性と可塑性のバランスをとるために,新しい連続学習手法Advanced Null Space(AdNS)を提案する。
また,現在のタスクの性能向上を図るため,タスク内蒸留を簡便かつ効果的に行う方法を提案する。
実験結果から,提案手法は最先端の連続学習手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2022-07-25T11:04:22Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。