論文の概要: iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement
- arxiv url: http://arxiv.org/abs/2407.06025v1
- Date: Mon, 8 Jul 2024 15:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:10:58.528381
- Title: iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement
- Title(参考訳): iLLM-TSC:交通信号制御ポリシー改善のための統合強化学習と大規模言語モデル
- Authors: Aoyu Pang, Maonan Wang, Man-On Pun, Chung Shue Chen, Xi Xiong,
- Abstract要約: 大規模言語モデル(LLM)と強化学習(RL)を組み合わせた新しい統合フレームワークを提案する。
提案手法は,従来のRL法と比較して,通信条件の劣化により平均待ち時間を17.5%削減する。
- 参考スコア(独自算出の注目度): 5.078593258867346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban congestion remains a critical challenge, with traffic signal control (TSC) emerging as a potent solution. TSC is often modeled as a Markov Decision Process problem and then solved using reinforcement learning (RL), which has proven effective. However, the existing RL-based TSC system often overlooks imperfect observations caused by degraded communication, such as packet loss, delays, and noise, as well as rare real-life events not included in the reward function, such as unconsidered emergency vehicles. To address these limitations, we introduce a novel integration framework that combines a large language model (LLM) with RL. This framework is designed to manage overlooked elements in the reward function and gaps in state information, thereby enhancing the policies of RL agents. In our approach, RL initially makes decisions based on observed data. Subsequently, LLMs evaluate these decisions to verify their reasonableness. If a decision is found to be unreasonable, it is adjusted accordingly. Additionally, this integration approach can be seamlessly integrated with existing RL-based TSC systems without necessitating modifications. Extensive testing confirms that our approach reduces the average waiting time by $17.5\%$ in degraded communication conditions as compared to traditional RL methods, underscoring its potential to advance practical RL applications in intelligent transportation systems. The related code can be found at \url{https://github.com/Traffic-Alpha/iLLM-TSC}.
- Abstract(参考訳): 交通信号制御(TSC)が強力なソリューションとして登場し、都市の混雑は依然として重要な課題である。
TSCはしばしばマルコフ決定プロセス問題としてモデル化され、その後強化学習(RL)を用いて解かれる。
しかし、既存のRTLベースのTSCシステムは、パケット損失、遅延、ノイズなどの劣化した通信による不完全な観測や、未解決の緊急車両のような報酬機能に含まれない稀な実生活イベントをしばしば見落としている。
これらの制約に対処するため,大規模言語モデル(LLM)とRLを組み合わせた新しい統合フレームワークを導入する。
このフレームワークは、報酬関数の見落とした要素と状態情報のギャップを管理し、RLエージェントのポリシーを強化するように設計されている。
我々のアプローチでは、RLはまず観測データに基づいて決定する。
その後、LSMはこれらの決定を評価し、妥当性を検証する。
決定が理にかなわないと判断すると、それに応じて調整される。
さらに、この統合アプローチは変更を必要とせずに既存のRLベースのTSCシステムとシームレスに統合することができる。
拡張テストでは,従来のRL方式と比較して,平均待ち時間を17.5\%削減し,知的輸送システムにおける実用的RL適用の可能性を強調した。
関連するコードは \url{https://github.com/Traffic-Alpha/iLLM-TSC} にある。
関連論文リスト
- Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments [3.7788636451616697]
本研究は,大規模言語モデルを交通信号制御システムに統合する革新的なアプローチを導入する。
LLMを知覚と意思決定ツールのスイートで強化するハイブリッドフレームワークが提案されている。
シミュレーションの結果から,交通環境の多種性に適応するシステムの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T08:41:55Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - The Real Deal: A Review of Challenges and Opportunities in Moving
Reinforcement Learning-Based Traffic Signal Control Systems Towards Reality [35.22273933799107]
交通信号制御 (TSC) は, 交通量の増加に伴い, 重要度の高い領域である。
強化学習(RL)は、信号処理効率を向上させるために、大量のトラフィックデータを描画することができる。
RLベースの信号制御装置は一度も配備されていない。
本研究では,(1)検出の不確実性,(2)通信の信頼性,(3)コンプライアンスと解釈可能性,(4)異種道路利用者の4つの課題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-23T22:05:38Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。