論文の概要: Using a single actor to output personalized policy for different intersections
- arxiv url: http://arxiv.org/abs/2503.07678v1
- Date: Mon, 10 Mar 2025 07:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:46.079493
- Title: Using a single actor to output personalized policy for different intersections
- Title(参考訳): 一つのアクターを用いて異なる交差点のパーソナライズされたポリシーを出力する
- Authors: Kailing Zhou, Chengwei Zhang, Furui Zhan, Wanting Liu, Yihong Li,
- Abstract要約: 複数の交差点を持つ交通シナリオにおいて、マルチエージェント強化学習(MARL)は、各交差点をエージェントとして扱う。
我々は,非イド観測分布と交差する交差点に対してパーソナライズされたポリシを提供するために,HAMH-PPO(Hyper-Action Multi-Head Proximal Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 1.0591849811338436
- License:
- Abstract: Recently, with the development of Multi-agent reinforcement learning (MARL), adaptive traffic signal control (ATSC) has achieved satisfactory results. In traffic scenarios with multiple intersections, MARL treats each intersection as an agent and optimizes traffic signal control strategies through learning and real-time decision-making. Considering that observation distributions of intersections might be different in real-world scenarios, shared parameter methods might lack diversity and thus lead to high generalization requirements in the shared-policy network. A typical solution is to increase the size of network parameters. However, simply increasing the scale of the network does not necessarily improve policy generalization, which is validated in our experiments. Accordingly, an approach that considers both the personalization of intersections and the efficiency of parameter sharing is required. To this end, we propose Hyper-Action Multi-Head Proximal Policy Optimization (HAMH-PPO), a Centralized Training with Decentralized Execution (CTDE) MARL method that utilizes a shared PPO policy network to deliver personalized policies for intersections with non-iid observation distributions. The centralized critic in HAMH-PPO uses graph attention units to calculate the graph representations of all intersections and outputs a set of value estimates with multiple output heads for each intersection. The decentralized execution actor takes the local observation history as input and output distributions of action as well as a so-called hyper-action to balance the multiple values estimated from the centralized critic to further guide the updating of TSC policies. The combination of hyper-action and multi-head values enables multiple agents to share a single actor-critic while achieving personalized policies.
- Abstract(参考訳): 近年,マルチエージェント強化学習 (MARL) の開発により, 適応交通信号制御 (ATSC) は良好な結果を得た。
複数の交差点を持つ交通シナリオにおいて、MARLは各交差点をエージェントとして扱い、学習とリアルタイム意思決定を通じて信号制御戦略を最適化する。
交点の観測分布が現実のシナリオで異なる場合を考えると、共有パラメータ法は多様性を欠いているため、共有政治ネットワークにおいて高い一般化要求をもたらす可能性がある。
典型的な解決策は、ネットワークパラメータのサイズを増やすことである。
しかし、単にネットワークの規模を増大させるだけでは、政策の一般化が必ずしも改善するとは限らない。
したがって,交差点のパーソナライズとパラメータ共有の効率を両立させるアプローチが必要である。
そこで本稿では,共有PPOポリシネットワークを利用した分散学習(CTDE)MARL手法であるHyper-Action Multi-Head Proximal Policy Optimization (HAMH-PPO)を提案する。
HAMH-PPOの中央集権的批評家は、すべての交点のグラフ表現を計算するためにグラフ注意ユニットを使用し、各交点に対して複数の出力ヘッドで値推定のセットを出力する。
分散実行アクタは、局所観察履歴をアクションの入力および出力分布として、およびいわゆるハイパーアクションとして、集中的批評家から推定される複数の値のバランスをとり、TSCポリシーの更新をさらに導く。
ハイパーアクションとマルチヘッド値の組み合わせにより、パーソナライズされたポリシーを達成しながら、複数のエージェントがひとつのアクタ批判を共有することができる。
関連論文リスト
- SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。
マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Common Information based Approximate State Representations in
Multi-Agent Reinforcement Learning [3.086462790971422]
我々は、分散化されたポリシーを構築可能な共通およびプライベートな状態表現を近似した汎用的な圧縮フレームワークを開発する。
その結果,「分散分散実行の分散学習」方式で,実用的に有用なディープMARLネットワーク構造の設計に光を当てた。
論文 参考訳(メタデータ) (2021-10-25T02:32:06Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。