Fugu-MT 論文翻訳(概要): Knowledge intensive state design for traffic signal control

論文の概要: Knowledge intensive state design for traffic signal control

arxiv url: http://arxiv.org/abs/2201.00006v1
Date: Thu, 30 Dec 2021 09:24:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-04 13:58:42.183618
Title: Knowledge intensive state design for traffic signal control
Title（参考訳）: 交通信号制御のための知識集中状態設計
Authors: Liang Zhang, Qiang Wu, Jianming Deng
Abstract要約: 本稿では,集中的な知識を持つ車両の待ち行列長として有効な状態表現を提案する。また、状態表現アプローチに基づいて、MaxQueueと呼ばれるTSC手法を提案する。 1) MaxQueueメソッドは最新のRLベースのメソッドよりも優れており、(2)QL-FRAPとQL-CoLightは、新しい最先端(SOTA)を実現する。
参考スコア（独自算出の注目度）: 7.714161600875073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a general trend of applying reinforcement learning (RL) techniques for traffic signal control (TSC). Recently, most studies pay attention to the neural network design and rarely concentrate on the state representation. Does the design of state representation has a good impact on TSC? In this paper, we (1) propose an effective state representation as queue length of vehicles with intensive knowledge; (2) present a TSC method called MaxQueue based on our state representation approach; (3) develop a general RL-based TSC template called QL-XLight with queue length as state and reward and generate QL-FRAP, QL-CoLight, and QL-DQN by our QL-XLight template based on traditional and latest RL models.Through comprehensive experiments on multiple real-world datasets, we demonstrate that: (1) our MaxQueue method outperforms the latest RL based methods; (2) QL-FRAP and QL-CoLight achieves a new state-of-the-art (SOTA). In general, state representation with intensive knowledge is also essential for TSC methods. Our code is released on Github.
Abstract（参考訳）: 交通信号制御(tsc)に強化学習(rl)技術を適用するという一般的な傾向がある。近年、ほとんどの研究はニューラルネットワークの設計に注意を払っており、状態表現にはほとんど集中していない。状態表現の設計はTSCに良い影響を与えますか? In this paper, we (1) propose an effective state representation as queue length of vehicles with intensive knowledge; (2) present a TSC method called MaxQueue based on our state representation approach; (3) develop a general RL-based TSC template called QL-XLight with queue length as state and reward and generate QL-FRAP, QL-CoLight, and QL-DQN by our QL-XLight template based on traditional and latest RL models.Through comprehensive experiments on multiple real-world datasets, we demonstrate that: (1) our MaxQueue method outperforms the latest RL based methods; (2) QL-FRAP and QL-CoLight achieves a new state-of-the-art (SOTA). 一般に、集中的な知識を持つ状態表現はtsc法にも不可欠である。私たちのコードはgithubでリリースされています。

関連論文リスト

Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文参考訳（メタデータ） (2025-09-30T05:34:20Z)
Reinforcement Learning Based Traffic Signal Design to Minimize Queue Lengths [15.439906983758808]
本稿では、RL(Reinforcement Learning)を活用して全信号位相の待ち行列長を最小化する適応型TSCフレームワークを提案する。提案アルゴリズムは,都市交通シミュレータ(SUMO)を用いて実装されている。最も優れた構成は、従来のWebster法と比較して平均キュー長を約29%削減する。
論文参考訳（メタデータ） (2025-09-26T01:23:30Z)
EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。 ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-09-16T03:00:13Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文参考訳（メタデータ） (2024-12-19T18:58:14Z)
Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文参考訳（メタデータ） (2024-09-09T15:12:28Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Learning Traffic Signal Control via Genetic Programming [2.954908748487635]
複雑な交差点における信号制御の新しい学習手法を提案する。本手法では,各信号位相に対する位相緊急の概念を設計する。緊急関数は、現在の道路条件に基づいて特定位相の位相緊急を算出することができる。
論文参考訳（メタデータ） (2024-03-26T02:22:08Z)
Improving the generalizability and robustness of large-scale traffic signal control [3.8028221877086814]
交通信号の制御における深部強化学習(RL)アプローチの堅牢性について検討する。欠落したデータに対して,近年の手法が脆弱なままであることを示す。政策アンサンブルによる分散強化学習とバニラ強化学習の組み合わせを提案する。
論文参考訳（メタデータ） (2023-06-02T21:30:44Z)
Graph Neural Network Autoencoders for Efficient Quantum Circuit Optimisation [69.43216268165402]
我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。我々は、量子回路から有向非巡回グラフを構築し、そのグラフを符号化し、その符号化を用いてRL状態を表現する。我々の手法は、非常に大規模なRL量子回路最適化に向けた最初の現実的な第一歩である。
論文参考訳（メタデータ） (2023-03-06T16:51:30Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Expression is enough: Improving traffic signal control with advanced traffic state representation [24.917612761503996]
フレキシブルで簡便な新手法であるアドバンストマックスプレッシャー(Advanced-MP)を提案する。我々はまた、ATSと現在のRLアプローチを組み合わせたRLベースのアルゴリズムテンプレートAdvanced-XLightを開発し、「Advanced-MPLight」と「Advanced-CoLight」の2つのRLアルゴリズムを生成する。複数の実世界のデータセットに関する総合的な実験によると、(1)Advanced-MPは、デプロイに効率的で信頼性の高いベースラインメソッドよりも優れており、(2)Advanced-MPLightとAdvanced-CoLightは、新しい最先端を実現することができる。
論文参考訳（メタデータ） (2021-12-19T10:28:39Z)
Efficient Pressure: Improving efficiency for signalized intersections [24.917612761503996]
交通信号制御(TSC)の問題を解決するために,強化学習(RL)が注目されている。既存のRLベースの手法は、計算資源の面でコスト効率が良くなく、従来の手法よりも堅牢ではないため、ほとんどデプロイされない。我々は,RTLに基づくアプローチに基づいて,トレーニングを減らし,複雑さを低減したTSCの適応制御系を構築する方法を示す。
論文参考訳（メタデータ） (2021-12-04T13:49:58Z)
POAR: Efficient Policy Optimization via Online Abstract State Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文参考訳（メタデータ） (2021-09-17T16:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。