論文の概要: Developing an OpenAI Gym-compatible framework and simulation environment
for testing Deep Reinforcement Learning agents solving the Ambulance Location
Problem
- arxiv url: http://arxiv.org/abs/2101.04434v2
- Date: Wed, 13 Jan 2021 09:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 08:36:57.715343
- Title: Developing an OpenAI Gym-compatible framework and simulation environment
for testing Deep Reinforcement Learning agents solving the Ambulance Location
Problem
- Title(参考訳): 救急車位置問題を解決する深層強化学習エージェントのテストのためのopenaiジム対応フレームワークとシミュレーション環境の開発
- Authors: Michael Allen, Kerry Pearn and Tom Monks
- Abstract要約: 本研究では、Deep RLエージェントをテストするためのOpenAI Gym互換フレームワークとシミュレーション環境を開発する。
Deep Qネットワークに基づくDeep RLエージェントの範囲は、このカスタム環境でテストされました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background and motivation: Deep Reinforcement Learning (Deep RL) is a rapidly
developing field. Historically most application has been made to games (such as
chess, Atari games, and go). Deep RL is now reaching the stage where it may
offer value in real world problems, including optimisation of healthcare
systems. One such problem is where to locate ambulances between calls in order
to minimise time from emergency call to ambulance on-scene. This is known as
the Ambulance Location problem.
Aim: To develop an OpenAI Gym-compatible framework and simulation environment
for testing Deep RL agents.
Methods: A custom ambulance dispatch simulation environment was developed
using OpenAI Gym and SimPy. Deep RL agents were built using PyTorch. The
environment is a simplification of the real world, but allows control over the
number of clusters of incident locations, number of possible dispatch
locations, number of hospitals, and creating incidents that occur at different
locations throughout each day.
Results: A range of Deep RL agents based on Deep Q networks were tested in
this custom environment. All reduced time to respond to emergency calls
compared with random allocation to dispatch points. Bagging Noisy Duelling Deep
Q networks gave the most consistence performance. All methods had a tendency to
lose performance if trained for too long, and so agents were saved at their
optimal performance (and tested on independent simulation runs).
Conclusions: Deep RL agents, developed using simulated environments, have the
potential to offer a novel approach to optimise the Ambulance Location problem.
Creating open simulation environments should allow more rapid progress in this
field.
- Abstract(参考訳): 背景と動機: 深層強化学習(Deep RL)は急速に発展している分野です。
歴史的に、ほとんどの応用はゲーム(チェス、atariゲーム、goなど)に行われている。
Deep RLは現在、医療システムの最適化など、現実世界の問題に価値を提供する段階に達している。
そのような問題の1つは、緊急呼び出しから救急車への緊急呼び出しまでの時間を最小化するために、呼び出し間の救急車の配置がどこにあるかである。
これは救急車の場所問題として知られている。
Aim: Deep RLエージェントをテストするためのOpenAI Gym互換フレームワークとシミュレーション環境を開発する。
方法: OpenAI Gym と SimPy を用いた独自の救急搬送シミュレーション環境を開発した。
ディープRLエージェントはPyTorchを使用して構築された。
環境は現実世界を単純化したものですが、インシデント場所のクラスタ数、送信可能な場所の数、病院の数、そして毎日異なる場所で発生したインシデントの生成を制御できます。
結果: このカスタム環境では,深いqネットワークに基づく深いrlエージェントがテストされた。
緊急呼び出しに応答する時間はすべて、ディスパッチポイントへのランダムな割り当てに比べます。
Bagging Noisy Duelling Deep Q ネットワークは最も構成性能が高かった。
すべてのメソッドは、トレーニングが長すぎるとパフォーマンスが低下する傾向があり、エージェントは最適なパフォーマンスで保存され、独立したシミュレーション実行でテストされた。
結論: シミュレーション環境を用いて開発された深層rlエージェントは, 救急車位置問題を最適化するための新しいアプローチを提供する可能性がある。
オープンシミュレーション環境の構築は、この分野のより迅速な進展を可能にするだろう。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - The Pump Scheduling Problem: A Real-World Scenario for Reinforcement
Learning [0.29005223064604074]
本研究では,実世界の給水施設のポンプスケジューリングに関する環境シミュレータと人的操作のデモンストレーションからなるテストベッドを公開する。
ポンプスケジューリング問題は、電力消費を制限しつつ、ポンプの供給をいつ行うかを決定する決定過程とみなすことができる。
出発点として,対処可能な課題の概要と課題のベースライン表現について述べる。
論文 参考訳(メタデータ) (2022-10-20T09:16:03Z) - Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay
Randomization [9.014518402531875]
我々は、予め定義されたコントローラや参照動作を使わずに、物理シミュレータにおけるエンドツーエンド制御のためのRLポリシーを訓練する。
ロボットが高速でスムーズに動き、障害物を回避し、ベースラインよりも大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2021-09-29T16:48:05Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Robust Reinforcement Learning-based Autonomous Driving Agent for
Simulation and Real World [0.0]
本稿では,Deep Q-Networks (DQN) を用いた自律型ロボット制御を実現するDRLベースのアルゴリズムを提案する。
本手法では,エージェントはシミュレーション環境で訓練され,シミュレーション環境と実環境環境の両方をナビゲートすることができる。
トレーニングされたエージェントは限られたハードウェアリソース上で動作することができ、そのパフォーマンスは最先端のアプローチに匹敵する。
論文 参考訳(メタデータ) (2020-09-23T15:23:54Z) - Integrating Deep Reinforcement Learning Networks with Health System
Simulations [0.0]
我々は、Deep RL NetworksとHealth System Simulationsを統合するためのフレームワークを提供する。
このフレームワークはOpenAI Gymを使用して開発およびテストされたエージェントと互換性がある。
本稿では,Deep RLエージェントとしてDouble Deep Q NetworkやDuelling Double Q Networkを用いた実例を示す。
論文 参考訳(メタデータ) (2020-07-21T07:44:59Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。