論文の概要: Evolutionary Discovery of Heuristic Policies for Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2511.23122v1
- Date: Fri, 28 Nov 2025 12:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.886566
- Title: Evolutionary Discovery of Heuristic Policies for Traffic Signal Control
- Title(参考訳): 交通信号制御のためのヒューリスティックポリシーの進化的発見
- Authors: Ruibing Wang, Shuhan Guo, Zeen Li, Zhen Wang, Quanming Yao,
- Abstract要約: 交通信号制御(TSC)は、古典文は効率的だが過度に単純化されているのに対し、深層強化学習(DRL)は高い性能を達成しているが、一般化や不透明なポリシーに悩まされている。
これらの問題に対処するために, LLM を進化エンジンとして用いた交通の時間的政策進化 (bfmethod) を提案する。
トレーニングなしで完全にプロンプトレベルで動作し、メソッドは特定のトラフィック環境に最適化された軽量で堅牢なポリシーを生成し、両方のテキストとオンラインのLLMアクターより優れています。
- 参考スコア(独自算出の注目度): 30.12743230122027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic Signal Control (TSC) involves a challenging trade-off: classic heuristics are efficient but oversimplified, while Deep Reinforcement Learning (DRL) achieves high performance yet suffers from poor generalization and opaque policies. Online Large Language Models (LLMs) provide general reasoning but incur high latency and lack environment-specific optimization. To address these issues, we propose Temporal Policy Evolution for Traffic (\textbf{\method{}}), which uses LLMs as an evolution engine to derive specialized heuristic policies. The framework introduces two key modules: (1) Structured State Abstraction (SSA), converting high-dimensional traffic data into temporal-logical facts for reasoning; and (2) Credit Assignment Feedback (CAF), tracing flawed micro-decisions to poor macro-outcomes for targeted critique. Operating entirely at the prompt level without training, \method{} yields lightweight, robust policies optimized for specific traffic environments, outperforming both heuristics and online LLM actors.
- Abstract(参考訳): 交通信号制御(TSC)は、従来のヒューリスティックは効率的だが過度に単純化されているのに対して、Deep Reinforcement Learning(DRL)は高いパフォーマンスを達成しているが、一般化や不透明なポリシーに悩まされている。
オンライン大言語モデル(LLM)は一般的な推論を提供するが、レイテンシが高く、環境固有の最適化が欠如している。
これらの問題に対処するために, LLMを進化エンジンとして用いて, 専門的なヒューリスティックなポリシーを導出する, 交通のための時間的ポリシー進化 (\textbf{\method{}}) を提案する。
このフレームワークでは,(1)構造化状態抽象化(Structured State Abstraction, SSA),(2)高次元のトラフィックデータを推論のための時間的論理的事実に変換すること,(2)CAF(Credit Assignment Feedback, CAF),欠陥のあるマイクロ決定のトレース,といった2つの重要なモジュールを紹介した。
トレーニングなしで完全にプロンプトレベルで運用すると、 \method{} は特定の交通環境に最適化された軽量で堅牢なポリシーが得られ、ヒューリスティックスとオンライン LLM アクターの両方を上回っている。
関連論文リスト
- Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Hierarchical Optimization via LLM-Guided Objective Evolution for Mobility-on-Demand Systems [9.979671028876464]
動的階層システムにおいて,大規模言語モデル(LLM)と数学的最適化を統合した新しいフレームワークを提案する。
このフレームワーク内では、LLMはメタ最適化として機能し、制約執行とリアルタイム決定実行に責任を負う低レベルのセマンティクスを生成する。
ニューヨークとシカゴの両方のタクシーデータに基づく実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-10-12T14:56:19Z) - CoLLMLight: Cooperative Large Language Model Agents for Network-Wide Traffic Signal Control [7.0964925117958515]
交通信号制御(TSC)は,交通流の最適化と混雑緩和によって都市交通管理において重要な役割を担っている。
既存のアプローチでは、エージェント間の調整に必要な問題に対処できない。
TSCのための協調LLMエージェントフレームワークであるCoLLMLightを提案する。
論文 参考訳(メタデータ) (2025-03-14T15:40:39Z) - Enhancing Traffic Signal Control through Model-based Reinforcement Learning and Policy Reuse [0.9995933996287355]
マルチエージェント強化学習(MARL)は交通信号制御(TSC)において有意な可能性を示した
現在のMARLベースの手法は、訓練中に使用する固定された交通パターンと道路網条件により、一般化が不十分な場合が多い。
この制限により、新しいトラフィックシナリオへの適応性が低下し、高い再トレーニングコストと複雑なデプロイメントが発生します。
我々はPLightとPRLightの2つのアルゴリズムを提案する。PLightはモデルに基づく強化学習アプローチを採用し、事前定義されたソースドメイントラフィックシナリオを用いて制御ポリシーと環境モデルを事前訓練する。PRLightはさらに、事前学習されたPLightエージェントの類似性に基づいて適応性を向上させる。
論文 参考訳(メタデータ) (2025-03-11T01:21:13Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments [3.7788636451616697]
本研究は,大規模言語モデルを交通信号制御システムに統合する革新的なアプローチを導入する。
LLMを知覚と意思決定ツールのスイートで強化するハイブリッドフレームワークが提案されている。
シミュレーションの結果から,交通環境の多種性に適応するシステムの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T08:41:55Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - LLMLight: Large Language Models as Traffic Signal Control Agents [25.438040499152745]
交通信号制御(TSC)は都市交通管理において重要な要素であり、道路網の効率を最適化し渋滞を軽減することを目的としている。
本稿では,大規模言語モデル (LLM) を用いた新しいフレームワーク LLMLight について述べる。
論文 参考訳(メタデータ) (2023-12-26T13:17:06Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。