論文の概要: C$^2$T: Captioning-Structure and LLM-Aligned Common-Sense Reward Learning for Traffic--Vehicle Coordination
- arxiv url: http://arxiv.org/abs/2604.13098v1
- Date: Fri, 10 Apr 2026 06:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.192746
- Title: C$^2$T: Captioning-Structure and LLM-Aligned Common-Sense Reward Learning for Traffic--Vehicle Coordination
- Title(参考訳): C$^2$T:キャプション構造とLLM対応交通用共通センスリワード学習-車両協調
- Authors: Yuyang Chen, Kaiyan Zhao, Yiming Wang, Ming Yang, Bin Rao, Zhenning Li,
- Abstract要約: C2Tは,交通車両のダイナミックスから共通感覚協調モデルを学習する新しいフレームワークである。
C2Tは、Large Language Model (LLM) から学習固有の報酬関数に「常識」の知識を蒸留する。
当社のフレームワークは,交通効率,安全性,エネルギー関連プロキシにおいて,MARLのベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 14.756000953938736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art (SOTA) urban traffic control increasingly employs Multi-Agent Reinforcement Learning (MARL) to coordinate Traffic Light Controllers (TLCs) and Connected Autonomous Vehicles (CAVs). However, the performance of these systems is fundamentally capped by their hand-crafted, myopic rewards (e.g., intersection pressure), which fail to capture high-level, human-centric goals like safety, flow stability, and comfort. To overcome this limitation, we introduce C2T, a novel framework that learns a common-sense coordination model from traffic-vehicle dynamics. C2T distills "common-sense" knowledge from a Large Language Model (LLM) into a learned intrinsic reward function. This new reward is then used to guide the coordination policy of a cooperative multi-intersection TLC MARL system on CityFlow-based multi-intersection benchmarks. Our framework significantly outperforms strong MARL baselines in traffic efficiency, safety, and an energy-related proxy. We further highlight C2T's flexibility in principle, allowing distinct "efficiency-focused" versus "safety-focused" policies by modifying the LLM prompt.
- Abstract(参考訳): 最先端の都市交通制御(SOTA)は、交通光制御装置(TLC)とコネクテッド・オートモービル(CAV)を協調させるために、MARL(Multi-Agent Reinforcement Learning)をますます採用している。
しかし、これらのシステムの性能は基本的に、手作りの、筋力のある報酬(例えば、交叉圧)によって抑えられ、安全、流れの安定性、快適さといった高いレベルの人間中心の目標を達成できない。
この制限を克服するために、交通車両力学から常識協調モデルを学ぶ新しいフレームワークであるC2Tを導入する。
C2Tは、Large Language Model (LLM) から学習固有の報酬関数に「常識」の知識を蒸留する。
この新たな報酬は、CityFlowベースのマルチインターセクションベンチマーク上での協調型マルチインターセクションTLC MARLシステムのコーディネーションポリシーの導出に使用される。
当社のフレームワークは,交通効率,安全性,エネルギー関連プロキシにおいて,MARLベースラインを著しく上回っている。
我々は、原則としてC2Tの柔軟性をさらに強調し、LCMプロンプトを変更することで、異なる「効率重視」と「安全重視」のポリシーを可能にする。
関連論文リスト
- COIN: Collaborative Interaction-Aware Multi-Agent Reinforcement Learning for Self-Driving Systems [11.28367642438173]
我々は,コラボレーティブ(CO-)インタラクションアウェア(-IN)MARLフレームワーク,COINを提案する。
COINは、エージェントの個々の目的(ナビゲーション)とグローバルな目標(コラボレーション)を共同で最適化することを目的としている。
COINは、様々なシステムサイズにわたる安全性と効率の両方において、他の先進的なベースライン手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2026-03-26T01:48:25Z) - CoordLight: Learning Decentralized Coordination for Network-Wide Traffic Signal Control [15.468107943726617]
CoordLightは、個々のジャンクション(エージェント)における意思決定を強化することによって、近隣のトラフィックを改善するために設計されたフレームワークである。
我々は,隣接エージェント間の状態と行動依存性を識別するアテンション機構を統合した,Neighbor-aware Policy Optimization (NAPO) という高度なMARLアルゴリズムを提案する。
我々は、CoordLightが、様々なトラフィックフローを持つ多様なトラフィックネットワークにおいて、一貫して優れた性能を示すことを実証的に示す。
論文 参考訳(メタデータ) (2026-03-25T14:46:31Z) - Joint-Local Grounded Action Transformation for Sim-to-Real Transfer in Multi-Agent Traffic Control [3.472517229547992]
交通信号制御(TSC)は,都市交通の流れの管理と混雑軽減に不可欠である。強化学習(RL)は,動的な交通パターンに対応することで,TSCの適応的手法を提供する。
MARLベースのTSCポリシーを現実世界で実装することは、しばしばsim-to-realギャップとして知られる大きなパフォーマンス低下につながる。
本稿では,隣接するエージェントからの情報を組み込んで,拡張基盤能力とスケーラビリティのバランスをとるため,GAT を MARL ベースの TSC に適用した JL-GAT を提案する。
論文 参考訳(メタデータ) (2025-07-21T01:33:59Z) - CoLLMLight: Cooperative Large Language Model Agents for Network-Wide Traffic Signal Control [7.0964925117958515]
交通信号制御(TSC)は,交通流の最適化と混雑緩和によって都市交通管理において重要な役割を担っている。
既存のアプローチでは、エージェント間の調整に必要な問題に対処できない。
TSCのための協調LLMエージェントフレームワークであるCoLLMLightを提案する。
論文 参考訳(メタデータ) (2025-03-14T15:40:39Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments [3.7788636451616697]
本研究は,大規模言語モデルを交通信号制御システムに統合する革新的なアプローチを導入する。
LLMを知覚と意思決定ツールのスイートで強化するハイブリッドフレームワークが提案されている。
シミュレーションの結果から,交通環境の多種性に適応するシステムの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T08:41:55Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。