論文の概要: OracleTSC: Oracle-Informed Reward Hurdle and Uncertainty Regularization for Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2605.08516v1
- Date: Fri, 08 May 2026 21:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.701539
- Title: OracleTSC: Oracle-Informed Reward Hurdle and Uncertainty Regularization for Traffic Signal Control
- Title(参考訳): OracleTSC:Oracleにインフォームドされたリワードハードルとトラフィック信号制御の不確実性正規化
- Authors: Darryl Jacob, Xinyu Liu, Muchao Ye, Xiaoyong Yuan, Pan He,
- Abstract要約: 強化学習に基づく交通信号制御(TSC)システムは、解釈可能性に制限のあるブラックボックスとして機能する。
OracleTSC は LLM ベースの TSC を2つのメカニズムで安定化させる。
LibSignalベンチマークの実験によると、OracleTSCはLLaMA3-8Bモデルをコンパクトにすることで、トラフィック効率を大幅に改善できる。
- 参考スコア(独自算出の注目度): 15.140797677788717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transparent decision-making is essential for traffic signal control (TSC) systems to earn public trust. However, traditional reinforcement learning-based TSC methods function as black boxes with limited interpretability. Although large language models (LLMs) can provide natural language reasoning, reinforcement finetuning for TSC remains unstable because feedback is sparse and delayed, while most actions produce only marginal changes in congestion metrics. We introduce OracleTSC, which stabilizes LLM-based TSC through two mechanisms: (1) a reward hurdle mechanism that filters weak learning signals by subtracting a calibrated threshold from environmental rewards, and (2) uncertainty regularization that maximizes the probability of the selected response to encourage consistent decisions across sampled outputs. Experiments on the LibSignal benchmark show that OracleTSC enables a compact LLaMA3-8B model to substantially improve traffic efficiency, achieving a 75% reduction in travel time and a 67% decrease in queue length compared with the pretrained baseline while preserving interpretability through natural language explanations. OracleTSC also demonstrates strong cross-intersection generalization: a policy trained on one intersection transfers to a structurally different intersection with 17% lower travel time and 39% lower queue length without additional finetuning. These results suggest that uncertainty-aware reward shaping can improve the stability and effectiveness of reinforcement fine-tuning for TSC.
- Abstract(参考訳): 交通信号制御(TSC)システムにとって、公衆信頼を得るためには透明性のある意思決定が不可欠である。
しかし、従来の強化学習に基づくTSC法は、解釈可能性に制限のあるブラックボックスとして機能する。
大規模言語モデル(LLM)は自然言語の推論を提供するが、フィードバックが小さく、遅延しているため、TSCの強化微調整は不安定であり、ほとんどのアクションは混雑指標の限界的な変化しか生じない。
我々は,(1)環境報酬から校正しきい値を減じることで,弱い学習信号をフィルタリングする報奨ハードル機構,(2)選択された応答の確率を最大化し,サンプル出力全体にわたって一貫した決定を奨励する不確実性正規化という2つのメカニズムにより,LSMベースのTLCを安定化させるOracleTSCを紹介する。
LibSignalベンチマークの実験によると、OracleTSCはコンパクトなLLaMA3-8Bモデルで交通効率を大幅に向上し、自然言語による解釈性を保ちながら、所要時間75%の短縮と待ち行列長の67%の短縮を実現している。
1つの交差点で訓練されたポリシーは、17%の移動時間と39%の待ち行列長を持つ構造的に異なる交差点に転送される。
これらの結果から, 不確実性を考慮した報酬形成は, TSCの強化微調整の安定性と有効性を向上させることが示唆された。
関連論文リスト
- SignalClaw: LLM-Guided Evolutionary Synthesis of Interpretable Traffic Signal Control Skills [8.299375016847524]
交通信号制御TSCは、展開に効果的かつ解釈可能な戦略を必要とする。
本稿では,大規模言語モデルを進化的スキルジェネレータとして利用するフレームワークであるSIGNALCLAWを紹介する。
それぞれのスキルには、合理性、選択指導、実行可能なコードが含まれており、ポリシーを人間の検査可能、自己文書化します。
論文 参考訳(メタデータ) (2026-04-07T07:35:45Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates [31.296823831987748]
Baguan-TSは、3Dトランスフォーマーによってインスタンス化されるICLと生系列表現学習を統合している。
i) キャリブレーションとトレーニング安定性, 特徴に依存しない目標空間検索に基づく局所キャリブレーション, および (ii) コンテクストオーバーフィッティング戦略によって緩和された出力過スムージングの2つの主要なハードルに対処する。
論文 参考訳(メタデータ) (2026-03-18T07:24:19Z) - A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control [14.135215838687207]
本稿では,ビシム交通シミュレータで検証された頑健なマルチエージェント強化学習フレームワークを提案する。
実験の結果,我々のフレームワークは標準のRLベースラインを上回る性能を示し,平均待ち時間を10%以上削減した。
論文 参考訳(メタデータ) (2026-03-12T16:02:28Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning [54.393763477932474]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
論文 参考訳(メタデータ) (2026-02-07T09:39:21Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning [18.934789236342244]
大規模言語モデル (LLM) は主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するために、教師付き微調整 (SFT) に依存している。
標準SFTは全てのトークンを一様に罰し、臨界トークンの小さなサブセットだけが推論の正しさを決定することを無視する。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:25:36Z) - Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。
Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。
実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文 参考訳(メタデータ) (2025-09-17T14:00:51Z) - Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文 参考訳(メタデータ) (2025-02-25T07:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。