論文の概要: Flatland-RL : Multi-Agent Reinforcement Learning on Trains
- arxiv url: http://arxiv.org/abs/2012.05893v2
- Date: Fri, 11 Dec 2020 14:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 10:41:09.019860
- Title: Flatland-RL : Multi-Agent Reinforcement Learning on Trains
- Title(参考訳): flatland-rl : 列車におけるマルチエージェント強化学習
- Authors: Sharada Mohanty, Erik Nygren, Florian Laurent, Manuel Schneider,
Christian Scheller, Nilabha Bhattacharya, Jeremy Watson, Adrian Egli,
Christian Eichenberger, Christian Baumberger, Gereon Vienken, Irene Sturm,
Guillaume Sartoretti, Giacomo Spigler
- Abstract要約: 根本的な車両再スケジュール問題(VRSP)は、何十年も前からOperations Research(OR)の主要な焦点でした。
従来のアプローチでは、複雑なシミュレータを使ってVRSPを研究しており、様々な新しいアイデアを試すには時間がかかるし、計算上のオーバーヘッドも大きい。
高速な実験を可能にする「フラトランド」と呼ばれる2次元簡易グリッド環境を導入する。
- 参考スコア(独自算出の注目度): 7.621780189413748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient automated scheduling of trains remains a major challenge for modern
railway systems. The underlying vehicle rescheduling problem (VRSP) has been a
major focus of Operations Research (OR) since decades. Traditional approaches
use complex simulators to study VRSP, where experimenting with a broad range of
novel ideas is time consuming and has a huge computational overhead. In this
paper, we introduce a two-dimensional simplified grid environment called
"Flatland" that allows for faster experimentation. Flatland does not only
reduce the complexity of the full physical simulation, but also provides an
easy-to-use interface to test novel approaches for the VRSP, such as
Reinforcement Learning (RL) and Imitation Learning (IL). In order to probe the
potential of Machine Learning (ML) research on Flatland, we (1) ran a first
series of RL and IL experiments and (2) design and executed a public Benchmark
at NeurIPS 2020 to engage a large community of researchers to work on this
problem. Our own experimental results, on the one hand, demonstrate that ML has
potential in solving the VRSP on Flatland. On the other hand, we identify key
topics that need further research. Overall, the Flatland environment has proven
to be a robust and valuable framework to investigate the VRSP for railway
networks. Our experiments provide a good starting point for further research
and for the participants of the NeurIPS 2020 Flatland Benchmark. All of these
efforts together have the potential to have a substantial impact on shaping the
mobility of the future.
- Abstract(参考訳): 列車の効率的な自動スケジューリングは現代の鉄道システムにとって大きな課題である。
車両再スケジュール問題(VRSP)は、数十年前からオペレーティング・リサーチ(OR)の主要な焦点となっている。
従来のアプローチでは、複雑なシミュレータを使ってVRSPを研究しており、様々な新しいアイデアを試すには時間がかかる。
本稿では,高速な実験を可能にする「フラトランド」と呼ばれる2次元簡易グリッド環境を提案する。
Flatlandは、完全な物理シミュレーションの複雑さを軽減するだけでなく、Reinforcement Learning (RL)やImitation Learning (IL)といったVRSPの新しいアプローチをテストするための使いやすいインターフェースを提供する。
フラットランドにおける機械学習(ml)研究の可能性を探究するため,(1)rlとilの実験と(2)neurips 2020で公開ベンチマークを実施し,大規模な研究者コミュニティによる研究を行った。
一方、我々の実験結果は、MLがFlatlandのVRSPを解く可能性を実証している。
一方で、さらなる研究を必要とする重要なトピックを特定する。
全体的に、フラットランド環境は鉄道網のvrspを調査するための堅牢で価値のある枠組みであることが証明されている。
われわれの実験は、NeurIPS 2020 Flatland Benchmarkの参加者にとって、さらなる研究の出発点となる。
これらすべての取り組みは、将来のモビリティを形作る上で大きな影響を与える可能性がある。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - SimVPv2: Towards Simple yet Powerful Spatiotemporal Predictive Learning [61.419914155985886]
空間的・時間的モデリングにおけるUnetアーキテクチャの必要性を解消する合理化モデルであるSimVPv2を提案する。
SimVPv2はモデルアーキテクチャを単純化するだけでなく、性能と計算効率も改善する。
標準のMoving MNISTベンチマークでは、SimVPv2は、FLOPが少なく、トレーニング時間の半分、推論効率が60%速く、SimVPよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - Influence-Augmented Local Simulators: A Scalable Solution for Fast Deep
RL in Large Networked Systems [18.281902746944525]
本稿では,深部RLで十分に高速に動作可能な複雑なシステムの軽量シミュレータを構築する方法について検討する。
我々は,グローバルなダイナミクスの影響を受けながら,エージェントがより大きな環境の一部と相互作用する領域に焦点を当てる。
本手法は,グローバルシステムの影響を模倣した学習モデルとローカルシミュレータの利用を併用する。
論文 参考訳(メタデータ) (2022-02-03T11:33:58Z) - AirDet: Few-Shot Detection without Fine-tuning for Autonomous
Exploration [16.032316550612336]
本稿では,支援画像とのクラス関係の学習による微調整が不要なAirDetを提案する。
AirDetは、徹底的に微調整された方法と同等またはそれ以上の結果を達成し、ベースラインで最大40~60%の改善を実現している。
DARPA潜水試験における実地探査実験の評価結果について述べる。
論文 参考訳(メタデータ) (2021-12-03T06:41:07Z) - Habitat 2.0: Training Home Assistants to Rearrange their Habitat [122.54624752876276]
インタラクティブな3D環境で仮想ロボットを訓練するためのシミュレーションプラットフォームHabitat 2.0(H2.0)を紹介する。
エンボディされたAIスタックのすべてのレベル – データ、シミュレーション、ベンチマークタスク – にコントリビューションを行います。
論文 参考訳(メタデータ) (2021-06-28T05:42:15Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。