論文の概要: Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning?
- arxiv url: http://arxiv.org/abs/2407.07364v1
- Date: Wed, 10 Jul 2024 04:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:51:32.144267
- Title: Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning?
- Title(参考訳): 不確実性下でのリアルタイムシステム最適トラフィックルーティング -- 物理モデルは強化学習を促進するか?
- Authors: Zemian Ke, Qiling Zou, Jiachao Liu, Sean Qian,
- Abstract要約: 本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。
物理モデルからの情報を活用することで、TransRLは最先端の強化学習アルゴリズムより一貫して優れている。
- 参考スコア(独自算出の注目度): 2.298129181817085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System optimal traffic routing can mitigate congestion by assigning routes for a portion of vehicles so that the total travel time of all vehicles in the transportation system can be reduced. However, achieving real-time optimal routing poses challenges due to uncertain demands and unknown system dynamics, particularly in expansive transportation networks. While physics model-based methods are sensitive to uncertainties and model mismatches, model-free reinforcement learning struggles with learning inefficiencies and interpretability issues. Our paper presents TransRL, a novel algorithm that integrates reinforcement learning with physics models for enhanced performance, reliability, and interpretability. TransRL begins by establishing a deterministic policy grounded in physics models, from which it learns from and is guided by a differentiable and stochastic teacher policy. During training, TransRL aims to maximize cumulative rewards while minimizing the Kullback Leibler (KL) divergence between the current policy and the teacher policy. This approach enables TransRL to simultaneously leverage interactions with the environment and insights from physics models. We conduct experiments on three transportation networks with up to hundreds of links. The results demonstrate TransRL's superiority over traffic model-based methods for being adaptive and learning from the actual network data. By leveraging the information from physics models, TransRL consistently outperforms state-of-the-art reinforcement learning algorithms such as proximal policy optimization (PPO) and soft actor critic (SAC). Moreover, TransRL's actions exhibit higher reliability and interpretability compared to baseline reinforcement learning approaches like PPO and SAC.
- Abstract(参考訳): システム最適トラフィックルーティングは、車両の一部の経路を割り当てることで渋滞を軽減することができ、輸送システム内の全車両の総走行時間を削減できる。
しかし, リアルタイム最適ルーティングの実現は, 不確実な要求や不確実なシステムダイナミクス, 特に拡張輸送ネットワークにおいて問題となる。
物理モデルに基づく手法は不確実性やモデルミスマッチに敏感であるが、モデルレス強化学習は非効率性や解釈可能性の問題に苦慮している。
本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。
TransRLは、物理モデルに基づく決定論的な政策を確立することから始まり、そこから学習し、微分可能で確率的な教師ポリシーによって導かれる。
トレーニング中、TransRLは累積報酬を最大化しつつ、KL(Kulback Leibler)の現行方針と教師方針の相違を最小限にすることを目的としている。
このアプローチにより、TransRLは環境との相互作用と物理モデルからの洞察を同時に活用できる。
我々は、最大で数百のリンクを持つ3つの輸送ネットワークで実験を行う。
その結果,実際のネットワークデータから適応的に学習するための交通モデルに基づく手法よりもTransRLの方が優れていることが示された。
物理モデルからの情報を活用することで、TransRLは近位ポリシー最適化(PPO)やソフトアクター批評家(SAC)といった最先端の強化学習アルゴリズムを一貫して上回っている。
さらに, TransRL の動作は PPO や SAC などのベースライン強化学習手法と比較して信頼性と解釈性が高い。
関連論文リスト
- Continual Learning for Adaptable Car-Following in Dynamic Traffic Environments [16.587883982785]
自動運転技術の継続的な進化には、多様なダイナミックな交通環境に適応できる自動車追従モデルが必要である。
従来の学習ベースのモデルは、連続的な学習能力の欠如により、目に見えないトラフィックパターンに遭遇する際のパフォーマンス低下に悩まされることが多い。
本稿では,この制限に対処する連続学習に基づく新しい車追従モデルを提案する。
論文 参考訳(メタデータ) (2024-07-17T06:32:52Z) - A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with
Prompt Learning [4.195122359359966]
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。
本研究では,LLMを利用してシステムダイナミクスの理解と解析を行う。
論文 参考訳(メタデータ) (2023-08-28T03:49:13Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Objective-aware Traffic Simulation via Inverse Reinforcement Learning [31.26257563160961]
逆強化学習問題として交通シミュレーションを定式化する。
動的ロバストシミュレーション学習のためのパラメータ共有逆強化学習モデルを提案する。
提案モデルでは,実世界の車両の軌道を模倣し,同時に報酬関数を復元することができる。
論文 参考訳(メタデータ) (2021-05-20T07:26:34Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z) - Model-Based Meta-Reinforcement Learning for Flight with Suspended
Payloads [69.21503033239985]
吊り下げられたペイロードの輸送は、自律的な航空車両にとって困難である。
接続後飛行データから数秒以内に変化力学のモデルを学習するメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-04-23T17:43:56Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。