論文の概要: Smart Train Operation Algorithms based on Expert Knowledge and
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.03327v3
- Date: Fri, 1 Jan 2021 17:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:46:06.673389
- Title: Smart Train Operation Algorithms based on Expert Knowledge and
Reinforcement Learning
- Title(参考訳): エキスパート知識と強化学習に基づくスマートトレイン運転アルゴリズム
- Authors: Kaichen Zhou, Shiji Song, Anke Xue, Keyou You, Hui Wu
- Abstract要約: 本稿では、専門家の知識と強化学習アルゴリズムを統合することにより、2つのスマートトレイン演算アルゴリズムを提案する。
1つは、深い決定論的政策勾配(STOD)に基づくスマートトレイン動作(STO)アルゴリズムであり、もう1つは、正規化優位関数(STON)に基づくスマートトレイン動作アルゴリズムである。
- 参考スコア(独自算出の注目度): 18.090025606319283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During recent decades, the automatic train operation (ATO) system has been
gradually adopted in many subway systems for its low-cost and intelligence.
This paper proposes two smart train operation algorithms by integrating the
expert knowledge with reinforcement learning algorithms. Compared with previous
works, the proposed algorithms can realize the control of continuous action for
the subway system and optimize multiple critical objectives without using an
offline speed profile. Firstly, through learning historical data of experienced
subway drivers, we extract the expert knowledge rules and build inference
methods to guarantee the riding comfort, the punctuality, and the safety of the
subway system. Then we develop two algorithms for optimizing the energy
efficiency of train operation. One is the smart train operation (STO) algorithm
based on deep deterministic policy gradient named (STOD) and the other is the
smart train operation algorithm based on normalized advantage function (STON).
Finally, we verify the performance of proposed algorithms via some numerical
simulations with the real field data from the Yizhuang Line of the Beijing
Subway and illustrate that the developed smart train operation algorithm are
better than expert manual driving and existing ATO algorithms in terms of
energy efficiency. Moreover, STOD and STON can adapt to different trip times
and different resistance conditions.
- Abstract(参考訳): 近年の数十年間、ATO(Automatic Train Operation)システムは、低コストとインテリジェンスのために、多くの地下鉄システムで徐々に採用されてきた。
本稿では,エキスパート知識と強化学習アルゴリズムを統合した2つのスマートトレイン演算アルゴリズムを提案する。
従来の手法と比較して,提案手法は地下鉄システムの連続動作制御を実現し,オフライン速度プロファイルを使わずに複数の臨界目標を最適化できる。
まず,経験豊富な地下鉄の運転者の履歴データから,運転の快適性,時間性,安全性を保証するための知識ルールを抽出し,推定手法を構築した。
次に,列車運転のエネルギー効率を最適化するアルゴリズムを2つ開発した。
1つは、決定論的政策勾配(STOD)に基づくスマートトレイン動作(STO)アルゴリズムであり、もう1つは、正規化優位関数(STON)に基づくスマートトレイン動作アルゴリズムである。
最後に, 北京地下鉄叡江線の実地データを用いて, 提案アルゴリズムの性能を数値シミュレーションにより検証し, 開発したスマートトレイン運転アルゴリズムが, 熟練した手動運転や既存のatoアルゴリズムよりもエネルギー効率が優れていることを示す。
さらに、STODとSTONは異なる旅行時間と異なる抵抗条件に適応できる。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Multi-agent Path Finding for Cooperative Autonomous Driving [8.8305853192334]
我々は,既存のアルゴリズムを著しく上回る最適かつ完全なアルゴリズムであるオーダーベース検索をKinematics Arrival Time Scheduling (OBS-KATS) により考案した。
当社の作業は、同じようなスケールのトラフィックや、有向車線を備えたマルチロボットシナリオに直接適用可能です。
論文 参考訳(メタデータ) (2024-02-01T04:39:15Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Robot Policy Learning from Demonstration Using Advantage Weighting and
Early Termination [14.754297065772676]
オフラインおよびオンライントレーニングを用いたオフライン専門家データを活用するために,新しい手法を用いたアルゴリズムを提案する。
AWETは、4つの標準的なロボットタスクの最先端のベースラインと比較して改善され、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-07-31T17:44:22Z) - Model-based Decision Making with Imagination for Autonomous Parking [50.41076449007115]
提案アルゴリズムは,駐車前に結果を予測するための想像モデル,高速探索ランダムツリー(RRT)の改良,経路平滑化モジュールの3つの部分から構成される。
われわれのアルゴリズムは、実際のキネマティックな車両モデルに基づいており、実際の自動運転車にアルゴリズムを適用するのにより適している。
アルゴリズムの有効性を評価するため,3つの異なる駐車シナリオにおいて,従来のRTとアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-08-25T18:24:34Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Experience-Based Heuristic Search: Robust Motion Planning with Deep
Q-Learning [0.0]
本稿では,Deep Q-Networkの形式でのエクスペリエンスを,探索アルゴリズムの最適ポリシとして統合する方法について述べる。
本手法は、自動運転車分野における強化学習に基づく計画の適用性について、さらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-02-05T12:08:11Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。