Fugu-MT 論文翻訳(概要): Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning?

論文の概要: Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning?

arxiv url: http://arxiv.org/abs/2407.07364v1
Date: Wed, 10 Jul 2024 04:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 17:51:32.144267
Title: Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning?
Title（参考訳）: 不確実性下でのリアルタイムシステム最適トラフィックルーティング -- 物理モデルは強化学習を促進するか?
Authors: Zemian Ke, Qiling Zou, Jiachao Liu, Sean Qian,
Abstract要約: 本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。物理モデルからの情報を活用することで、TransRLは最先端の強化学習アルゴリズムより一貫して優れている。
参考スコア（独自算出の注目度）: 2.298129181817085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: System optimal traffic routing can mitigate congestion by assigning routes for a portion of vehicles so that the total travel time of all vehicles in the transportation system can be reduced. However, achieving real-time optimal routing poses challenges due to uncertain demands and unknown system dynamics, particularly in expansive transportation networks. While physics model-based methods are sensitive to uncertainties and model mismatches, model-free reinforcement learning struggles with learning inefficiencies and interpretability issues. Our paper presents TransRL, a novel algorithm that integrates reinforcement learning with physics models for enhanced performance, reliability, and interpretability. TransRL begins by establishing a deterministic policy grounded in physics models, from which it learns from and is guided by a differentiable and stochastic teacher policy. During training, TransRL aims to maximize cumulative rewards while minimizing the Kullback Leibler (KL) divergence between the current policy and the teacher policy. This approach enables TransRL to simultaneously leverage interactions with the environment and insights from physics models. We conduct experiments on three transportation networks with up to hundreds of links. The results demonstrate TransRL's superiority over traffic model-based methods for being adaptive and learning from the actual network data. By leveraging the information from physics models, TransRL consistently outperforms state-of-the-art reinforcement learning algorithms such as proximal policy optimization (PPO) and soft actor critic (SAC). Moreover, TransRL's actions exhibit higher reliability and interpretability compared to baseline reinforcement learning approaches like PPO and SAC.
Abstract（参考訳）: システム最適トラフィックルーティングは、車両の一部の経路を割り当てることで渋滞を軽減することができ、輸送システム内の全車両の総走行時間を削減できる。しかし, リアルタイム最適ルーティングの実現は, 不確実な要求や不確実なシステムダイナミクス, 特に拡張輸送ネットワークにおいて問題となる。物理モデルに基づく手法は不確実性やモデルミスマッチに敏感であるが、モデルレス強化学習は非効率性や解釈可能性の問題に苦慮している。本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。 TransRLは、物理モデルに基づく決定論的な政策を確立することから始まり、そこから学習し、微分可能で確率的な教師ポリシーによって導かれる。トレーニング中、TransRLは累積報酬を最大化しつつ、KL(Kulback Leibler)の現行方針と教師方針の相違を最小限にすることを目的としている。このアプローチにより、TransRLは環境との相互作用と物理モデルからの洞察を同時に活用できる。我々は、最大で数百のリンクを持つ3つの輸送ネットワークで実験を行う。その結果,実際のネットワークデータから適応的に学習するための交通モデルに基づく手法よりもTransRLの方が優れていることが示された。物理モデルからの情報を活用することで、TransRLは近位ポリシー最適化(PPO)やソフトアクター批評家(SAC)といった最先端の強化学習アルゴリズムを一貫して上回っている。さらに, TransRL の動作は PPO や SAC などのベースライン強化学習手法と比較して信頼性と解釈性が高い。

関連論文リスト

TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay [8.172286651098027]
線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。本稿では,物理インフォームドポリシによって強化されたRL制御系の開発を目標とする。
論文参考訳（メタデータ） (2024-09-23T23:02:34Z)
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文参考訳（メタデータ） (2024-08-30T16:16:57Z)
Continual Learning for Adaptable Car-Following in Dynamic Traffic Environments [16.587883982785]
自動運転技術の継続的な進化には、多様なダイナミックな交通環境に適応できる自動車追従モデルが必要である。従来の学習ベースのモデルは、連続的な学習能力の欠如により、目に見えないトラフィックパターンに遭遇する際のパフォーマンス低下に悩まされることが多い。本稿では,この制限に対処する連続学習に基づく新しい車追従モデルを提案する。
論文参考訳（メタデータ） (2024-07-17T06:32:52Z)
Reinforcement Learning with Human Feedback for Realistic Traffic Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文参考訳（メタデータ） (2023-09-01T19:29:53Z)
Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning [4.195122359359966]
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。本研究では,LLMを利用してシステムダイナミクスの理解と解析を行う。
論文参考訳（メタデータ） (2023-08-28T03:49:13Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文参考訳（メタデータ） (2022-06-07T13:51:35Z)
Objective-aware Traffic Simulation via Inverse Reinforcement Learning [31.26257563160961]
逆強化学習問題として交通シミュレーションを定式化する。動的ロバストシミュレーション学習のためのパラメータ共有逆強化学習モデルを提案する。提案モデルでは,実世界の車両の軌道を模倣し,同時に報酬関数を復元することができる。
論文参考訳（メタデータ） (2021-05-20T07:26:34Z)
Vehicular Cooperative Perception Through Action Branching and Federated Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文参考訳（メタデータ） (2020-12-07T02:09:15Z)
Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads [69.21503033239985]
吊り下げられたペイロードの輸送は、自律的な航空車両にとって困難である。接続後飛行データから数秒以内に変化力学のモデルを学習するメタラーニング手法を提案する。
論文参考訳（メタデータ） (2020-04-23T17:43:56Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。