論文の概要: Assessment of Reward Functions for Reinforcement Learning Traffic Signal
Control under Real-World Limitations
- arxiv url: http://arxiv.org/abs/2008.11634v2
- Date: Mon, 12 Oct 2020 16:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 20:45:32.683828
- Title: Assessment of Reward Functions for Reinforcement Learning Traffic Signal
Control under Real-World Limitations
- Title(参考訳): 実世界制限下における強化学習トラヒック信号制御のための報酬関数の評価
- Authors: Alvaro Cabrejas-Egea, Shaun Howell, Maksis Knutins and Colm
Connaughton
- Abstract要約: 本稿では,マンチェスター大都市圏のジャンクションシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。
速度の最大化により、すべての需要レベルにおいて平均待ち時間が最低となり、文献で紹介された他の報酬よりも性能が著しく向上したことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive traffic signal control is one key avenue for mitigating the growing
consequences of traffic congestion. Incumbent solutions such as SCOOT and SCATS
require regular and time-consuming calibration, can't optimise well for
multiple road use modalities, and require the manual curation of many
implementation plans. A recent alternative to these approaches are deep
reinforcement learning algorithms, in which an agent learns how to take the
most appropriate action for a given state of the system. This is guided by
neural networks approximating a reward function that provides feedback to the
agent regarding the performance of the actions taken, making it sensitive to
the specific reward function chosen. Several authors have surveyed the reward
functions used in the literature, but attributing outcome differences to reward
function choice across works is problematic as there are many uncontrolled
differences, as well as different outcome metrics. This paper compares the
performance of agents using different reward functions in a simulation of a
junction in Greater Manchester, UK, across various demand profiles, subject to
real world constraints: realistic sensor inputs, controllers, calibrated
demand, intergreen times and stage sequencing. The reward metrics considered
are based on the time spent stopped, lost time, change in lost time, average
speed, queue length, junction throughput and variations of these magnitudes.
The performance of these reward functions is compared in terms of total waiting
time. We find that speed maximisation resulted in the lowest average waiting
times across all demand levels, displaying significantly better performance
than other rewards previously introduced in the literature.
- Abstract(参考訳): 適応的な交通信号制御は,交通渋滞の増大を緩和するための重要な手段である。
SCOOTやSCATSのような既存のソリューションは、定期的かつ時間を要するキャリブレーションを必要とし、複数の道路利用モダリティに最適化できず、多くの実装計画のマニュアルキュレーションを必要とします。
これらのアプローチの最近の代替手段は深層強化学習アルゴリズムであり、エージェントはシステムの特定の状態に対して最も適切なアクションを取る方法を学ぶ。
これは、与えられたアクションのパフォーマンスに関するエージェントにフィードバックを提供する報酬関数をニューラルネットワークで近似することにより、選択された報酬関数に敏感になる。
いくつかの著者は、文学で使われる報酬関数を調査しているが、作品間での報酬関数の選択に結果の差を帰結させることは、制御できない多くの違いと異なる結果の指標があるため問題である。
本稿では,マンチェスター大都市圏のジャンクションのシミュレーションにおいて,現実的なセンサ入力,コントローラ,キャリブレーション要求,インターグリーン時間,ステージシークエンシングといった,さまざまな需要プロファイルのシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。
考慮された報酬のメトリクスは、停止、ロスタイム、ロスタイムの変化、平均速度、キューの長さ、ジャンクションスループット、これらの大きさのバリエーションに基づいています。
これらの報酬関数のパフォーマンスは、合計待ち時間の観点から比較される。
速度の最大化は、すべての需要レベルにおいて平均待ち時間が最も低く、文献で導入された他の報酬よりもはるかに優れたパフォーマンスを示した。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Comparative Study of Loss Functions: Traffic Predictions in Regular
and Congestion Scenarios [0.0]
本稿では、重み解析と不均衡な分類問題から着想を得た種々の損失関数を探索し、この問題に対処する。
平均絶対誤差(MAE)を最適化する場合,MAE-Focal Loss関数が最も有効であることがわかった。
本研究は,混雑による急激な速度変化を予測する深層学習モデルの能力を高める。
論文 参考訳(メタデータ) (2023-08-29T17:44:02Z) - Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文 参考訳(メタデータ) (2022-12-06T19:51:12Z) - Cooperative Reinforcement Learning on Traffic Signal Control [3.759936323189418]
交通信号の制御は、道路交差点での車両の移動を調整することで、全体の走行時間を最小化することを目的とした、現実的な課題である。
既存の信号制御システムは、過度に単純化された情報とルールベースの方法に大きく依存している。
本稿では,交通信号制御最適化のための複数の報酬項をより正確に推定するために,年齢遅延重み付き協調型多目的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-23T13:25:15Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - AutoLoss: Automated Loss Function Search in Recommendations [34.27873944762912]
候補集合から適切な損失関数を自動かつ適応的に検索できるAutoLossフレームワークを提案する。
既存のアルゴリズムとは異なり、提案したコントローラは、様々な収束挙動に応じて、異なるデータ例に対する損失確率を適応的に生成することができる。
論文 参考訳(メタデータ) (2021-06-12T08:15:00Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Assessment of Reward Functions in Reinforcement Learning for Multi-Modal
Urban Traffic Control under Real-World limitations [0.0]
本稿では,歩行者と車両の交差点を制御するために,30種類の強化学習報酬関数を頑健に評価する。
我々は、マンチェスター大都市圏における実際の交差点の需要、センサー、グリーンタイム、その他の運用上の制約について、キャリブレーションされたモデルを使用します。
論文 参考訳(メタデータ) (2020-10-17T16:20:33Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。