論文の概要: AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.04196v1
- Date: Mon, 10 May 2021 08:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 22:33:46.525026
- Title: AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning
- Title(参考訳): マルチエージェントマルチタスク強化学習による小隊型c-v2xネットワークのaoi-awareリソース割り当て
- Authors: Mohammad Parvini, Mohammad Reza Javan, Nader Mokari, Bijan Abbasi, and
Eduard A. Jorswieck
- Abstract要約: 本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
- 参考スコア(独自算出の注目度): 22.890835786710316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem of age of information (AoI) aware radio
resource management for a platooning system. Multiple autonomous platoons
exploit the cellular wireless vehicle-to-everything (C-V2X) communication
technology to disseminate the cooperative awareness messages (CAMs) to their
followers while ensuring timely delivery of safety-critical messages to the
Road-Side Unit (RSU). Due to the challenges of dynamic channel conditions,
centralized resource management schemes that require global information are
inefficient and lead to large signaling overheads. Hence, we exploit a
distributed resource allocation framework based on multi-agent reinforcement
learning (MARL), where each platoon leader (PL) acts as an agent and interacts
with the environment to learn its optimal policy. Existing MARL algorithms
consider a holistic reward function for the group's collective success, which
often ends up with unsatisfactory results and cannot guarantee an optimal
policy for each agent. Consequently, motivated by the existing literature in
RL, we propose a novel MARL framework that trains two critics with the
following goals: A global critic which estimates the global expected reward and
motivates the agents toward a cooperating behavior and an exclusive local
critic for each agent that estimates the local individual reward. Furthermore,
based on the tasks each agent has to accomplish, the individual reward of each
agent is decomposed into multiple sub-reward functions where task-wise value
functions are learned separately. Numerical results indicate our proposed
algorithm's effectiveness compared with the conventional RL methods applied in
this area.
- Abstract(参考訳): 本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、携帯電話無線通信技術(C-V2X)を利用して、協力的認識メッセージ(CAM)をフォロワーに広め、道路側ユニット(RSU)に安全クリティカルメッセージをタイムリーに届ける。
動的チャネル条件の課題のため、グローバル情報を必要とする集中型リソース管理スキームは効率が悪く、大きなシグナルのオーバーヘッドにつながる。
そこで我々は,多エージェント強化学習(MARL)に基づく分散資源配分フレームワークを活用し,各小隊指導者(PL)がエージェントとして行動し,環境と対話して最適な政策を学ぶ。
既存のMARLアルゴリズムは、グループ全体の成功に対する総体的な報酬関数を考慮し、しばしば不満足な結果となり、各エージェントに対して最適なポリシーを保証できない。
その結果,RL の既存文献をモチベーションとした新たな MARL フレームワークを提案する。グローバルな批評家はグローバルな期待する報酬を推定し,エージェントを協調行動に動機付け,ローカルな報酬を推定する各エージェントに対して排他的ローカルな批評家はローカルな報酬を推定する。
さらに、各エージェントが行うべきタスクに基づいて、各エージェントの個々の報酬を複数のサブリワード関数に分解し、タスクワイドバリュー関数を個別に学習する。
この領域で適用された従来のRL法と比較して,提案アルゴリズムの有効性が示唆された。
関連論文リスト
- Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Group-Agent Reinforcement Learning [12.915860504511523]
複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行すれば、各エージェントの強化学習プロセスに大きく貢献できる。
グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。
論文 参考訳(メタデータ) (2022-02-10T16:40:59Z) - Learning to Share in Multi-Agent Reinforcement Learning [33.462384381980065]
ネットワーク型マルチエージェント強化学習(MARL)の問題点について検討する。
人間の協調学習において,テキスト共有が重要な役割を担っているという事実に着想を得て,LToSを提案する。
各エージェントに対して、高レベルの政策は、近隣の人たちと報酬を共有してグローバルな目的を分解する方法を学習し、低レベルの政策は、近隣の高レベルの政策によって誘導される局所的な目標を最適化することを学ぶ。
論文 参考訳(メタデータ) (2021-12-16T08:43:20Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。