論文の概要: Semi Centralized Training Decentralized Execution Architecture for Multi Agent Deep Reinforcement Learning in Traffic Signal Control
- arxiv url: http://arxiv.org/abs/2512.04653v1
- Date: Thu, 04 Dec 2025 10:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.115857
- Title: Semi Centralized Training Decentralized Execution Architecture for Multi Agent Deep Reinforcement Learning in Traffic Signal Control
- Title(参考訳): 交通信号制御における多エージェント深部強化学習のための半集中型訓練分散実行アーキテクチャ
- Authors: Pouria Yazdani, Arash Rezaali, Monireh Abdoos,
- Abstract要約: 本稿では,適応的な信号制御のためのセミトレーニング,分散実行(SEMI-CTDE)アーキテクチャを提案する。
各地域において、SEMI-CTDEは、地域パラメータ共有による集中的なトレーニングを行い、地域情報と地域情報を共同で符号化する複合状態と報酬の定式化を採用している。
2つの実装されたSEMI-CTDEモデルに対する多視点実験分析により、連続的に優れた性能を示し、幅広い交通密度と分布において有効であることを示す。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has emerged as a promising paradigm for adaptive traffic signal control (ATSC) of multiple intersections. Existing approaches typically follow either a fully centralized or a fully decentralized design. Fully centralized approaches suffer from the curse of dimensionality, and reliance on a single learning server, whereas purely decentralized approaches operate under severe partial observability and lack explicit coordination resulting in suboptimal performance. These limitations motivate region-based MARL, where the network is partitioned into smaller, tightly coupled intersections that form regions, and training is organized around these regions. This paper introduces a Semi-Centralized Training, Decentralized Execution (SEMI-CTDE) architecture for multi intersection ATSC. Within each region, SEMI-CTDE performs centralized training with regional parameter sharing and employs composite state and reward formulations that jointly encode local and regional information. The architecture is highly transferable across different policy backbones and state-reward instantiations. Building on this architecture, we implement two models with distinct design objectives. A multi-perspective experimental analysis of the two implemented SEMI-CTDE-based models covering ablations of the architecture's core elements including rule based and fully decentralized baselines shows that they achieve consistently superior performance and remain effective across a wide range of traffic densities and distributions.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、複数の交差点の適応的交通信号制御(ATSC)のための有望なパラダイムとして登場した。
既存のアプローチは一般的に、完全に中央集権的な設計か、完全に分散化された設計を踏襲する。
完全な集中型アプローチは、次元性の呪いと単一の学習サーバへの依存に悩まされる一方、純粋に分散化されたアプローチは、厳密な部分的観測可能性の下で動作し、明示的な調整が欠如し、最適以下のパフォーマンスをもたらす。
これらの制限は、地域ベースのMARLを動機付け、ネットワークは、領域を形成する小さな密結合の交差点に分割され、これらの領域の周りに訓練が組織される。
本稿では,多地点ATSCのためのセミセンタライズドトレーニング,分散実行(SEMI-CTDE)アーキテクチャを提案する。
各地域において、SEMI-CTDEは、地域パラメータ共有による集中的なトレーニングを行い、地域情報と地域情報を共同で符号化する複合状態と報酬の定式化を採用している。
アーキテクチャは、異なるポリシーバックボーンとステート-リワードインスタンス間で高い転送性を持つ。
このアーキテクチャに基づいて、設計目的の異なる2つのモデルを実装します。
ルールベースおよび完全に分散化されたベースラインを含むアーキテクチャのコア要素の省略を網羅したSEMI-CTDEに基づく2つの実装モデルの多視点実験分析により、それらが一貫して優れた性能を達成し、広範囲の交通密度と分布において有効であることを示す。
関連論文リスト
- AINet: Anchor Instances Learning for Regional Heterogeneity in Whole Slide Image [61.54860340942449]
本稿では,その地域(地域)に代表されるインスタンスのコンパクトなサブセットであるアンカーインスタンス(AI)の概念を導入し,バッグ(グローバル)レベルで識別する。
これらのAIは、地域間の相互作用をガイドする意味的な参照として機能し、地域多様性を維持しながら非差別的なパターンを修正する。
我々は、単純な予測器を使用し、FLOPやパラメータを著しく少なくした最先端の手法を超越した、簡潔で効果的なフレームワークであるAINetを開発した。
論文 参考訳(メタデータ) (2026-02-21T09:36:27Z) - Multi-Agent Deep Reinforcement Learning Under Constrained Communications [2.7126292487109005]
本稿では,集中型批判者やグローバル情報の必要性を解消する分散マルチエージェント強化学習(MARL)フレームワークを提案する。
マルチホップ通信によるグローバルな状態推論を行う新しいグラフ注意ネットワーク(D-GAT)を開発した。
また、エージェントがローカルポリシーや値関数を最適化する分散MARLフレームワークである分散グラフアテンションMAPPO(DG-MAPPO)を開発した。
論文 参考訳(メタデータ) (2026-01-22T21:07:18Z) - Bayesian Ego-graph inference for Networked Multi-Agent Reinforcement Learning [16.190458233440864]
本稿では,ネットワーク型MARLのためのグラフベースのポリシーを提案する。
ベイズ変分法による疎密なコンテキスト認識相互作用構造を学習する分散型アクターフレームであるBayesGを紹介する。
BayesGは、最大167エージェントの大規模トラフィック制御タスクにおいて、強力なMARLベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-20T10:09:37Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.35361897941898]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
ネットワーク化されたアプローチは、障害の更新や人口規模の変化に対する堅牢性という点において、両方の選択肢に対して大きなメリットがあることが示されています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - Large-Scale Traffic Signal Control Using Constrained Network Partition
and Adaptive Deep Reinforcement Learning [19.914106989483987]
近年,Multi-Adnt Deep Reinforcement Learning (MADRL)に基づく交通信号制御が注目されている。
いくつかの文献では、ネットワーク全体を複数の非結合領域に分割する地域制御アプローチを採用している。
上記の制約に対処するために、RereaLightという新しいRLトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-21T14:42:58Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。