論文の概要: Variationally and Intrinsically motivated reinforcement learning for
decentralized traffic signal control
- arxiv url: http://arxiv.org/abs/2101.00746v4
- Date: Wed, 20 Jan 2021 06:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 08:17:21.051518
- Title: Variationally and Intrinsically motivated reinforcement learning for
decentralized traffic signal control
- Title(参考訳): 分散トラヒック信号制御のための変分的・本質的強化学習
- Authors: Liwen Zhu, Peixi Peng, Zongqing Lu, Xiangqian Wang, Yonghong Tian
- Abstract要約: 交通信号コーディネート制御のための新しいMetaVRS法を提案する。
環境報酬に本質的な報酬を適用することで、MetaVRSはエージェント対エージェントの相互作用を賢明に捉えることができる。
VAEが生み出す潜伏変数は、探査と搾取のトレードオフを自動的に行うためのポリシーに組み込まれる。
- 参考スコア(独自算出の注目度): 31.33071476673294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the biggest challenges in multi-agent reinforcement learning is
coordination, a typical application scenario of this is traffic signal control.
Recently, it has attracted a rising number of researchers and has become a hot
research field with great practical significance. In this paper, we propose a
novel method called MetaVRS~(Meta Variational RewardShaping) for traffic signal
coordination control. By heuristically applying the intrinsic reward to the
environmental reward, MetaVRS can wisely capture the agent-to-agent interplay.
Besides, latent variables generated by VAE are brought into policy for
automatically tradeoff between exploration and exploitation to optimize the
policy. In addition, meta learning was used in decoder for faster adaptation
and better approximation. Empirically, we demonstate that MetaVRS substantially
outperforms existing methods and shows superior adaptability, which predictably
has a far-reaching significance to the multi-agent traffic signal coordination
control.
- Abstract(参考訳): マルチエージェント強化学習の最大の課題の1つはコーディネーションであり、典型的な応用シナリオはトラフィック信号制御である。
近年,多くの研究者を惹きつけ,実際的な意義を持つ熱い研究分野となっている。
本稿では,交通信号調整制御のためのMetaVRS~(Meta Variational Reward Shaping)という新しい手法を提案する。
環境報酬に本質的な報酬をヒューリスティックに適用することにより、MetaVRSはエージェント対エージェントの相互作用を賢明に捉えることができる。
さらに、VAEが生成した潜伏変数は、探索とエクスプロイトの間で自動的にトレードオフを行い、ポリシーを最適化する。
さらに、メタ学習はデコーダで高速な適応と近似のために使われた。
実証的に、MetaVRSは既存の手法よりも大幅に優れ、適応性も優れており、マルチエージェントの信号調整制御において予測できるほど重要となる。
関連論文リスト
- Towards Full-scene Domain Generalization in Multi-agent Collaborative
Bird's Eye View Segmentation for Connected and Autonomous Driving [54.60458503590669]
協調認識の学習段階と推論段階の両方に適用可能な統合ドメイン一般化フレームワークを提案する。
我々は、AmpAug(Amplitude Augmentation)法を用いて、低周波画像の変動を増大させ、学習能力を拡大する。
推論フェーズでは、システム内ドメインアライメント機構を導入し、ドメインの不一致を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - A Novel Multi-Agent Deep RL Approach for Traffic Signal Control [13.927155702352131]
都市ネットワークにおける複数の交通信号制御のための Friend-Deep Q-network (Friend-DQN) アプローチを提案する。
特に、複数のエージェント間の協調は状態-作用空間を減少させ、収束を加速させる。
論文 参考訳(メタデータ) (2023-06-05T08:20:37Z) - Traj-MAE: Masked Autoencoders for Trajectory Prediction [69.7885837428344]
軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。
本稿では,運転環境におけるエージェントの複雑な動作をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダを提案する。
複数エージェント設定と単一エージェント設定の両方の実験結果から,Traj-MAEが最先端手法と競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-03-12T16:23:27Z) - Learning Control Admissibility Models with Graph Neural Networks for
Multi-Agent Navigation [9.05607520128194]
制御適応モデル(CAM)は、任意の数のエージェントに対するオンライン推論のために簡単に構成され、使用することができる。
CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-17T19:20:58Z) - Distributionally Adaptive Meta Reinforcement Learning [85.17284589483536]
テスト時間分布シフトの下で適切に振る舞うメタRLアルゴリズムのフレームワークを開発する。
我々の枠組みは、分布のロバスト性に対する適応的なアプローチを中心とし、様々なレベルの分布シフトに対してロバストであるようメタポリスの人口を訓練する。
本研究は, 分散シフト下での後悔を改善するための枠組みを示し, シミュレーションロボティクス問題に対する効果を実証的に示す。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Network-wide traffic signal control optimization using a multi-agent
deep reinforcement learning [20.385286762476436]
非効率な交通制御は、交通渋滞やエネルギー廃棄物などの多くの問題を引き起こす可能性がある。
本論文では,交通信号間の協調性を高めることで最適制御を実現するマルチエージェント強化学習手法であるKS-DDPGを提案する。
論文 参考訳(メタデータ) (2021-04-20T12:53:08Z) - Meta-Reinforcement Learning for Trajectory Design in Wireless UAV
Networks [151.65541208130995]
ドローン基地局(DBS)は、要求が動的で予測不可能な地上ユーザーへのアップリンク接続を提供するために派遣される。
この場合、DBSの軌道は動的ユーザアクセス要求を満たすように適応的に調整されなければならない。
新たな環境に遭遇したDBSの軌道に適応するために,メタラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-25T20:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。