論文の概要: Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and
Competitive Environments
- arxiv url: http://arxiv.org/abs/2005.05441v2
- Date: Sat, 29 Aug 2020 01:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:02:58.490791
- Title: Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and
Competitive Environments
- Title(参考訳): 協調・競争環境のための遅延対応多エージェント強化学習
- Authors: Baiming Chen, Mengdi Xu, Zuxin Liu, Liang Li, Ding Zhao
- Abstract要約: アクションと観察の遅延は、現実世界のサイバー物理システムに多く存在する。
本稿では,遅延に対処する新しいフレームワークと,マルチエージェントタスクの非定常トレーニング問題を提案する。
実験は, 協調コミュニケーション, 協調ナビゲーション, 競争実験を含む多エージェント粒子環境下で実施される。
- 参考スコア(独自算出の注目度): 23.301322095357808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action and observation delays exist prevalently in the real-world
cyber-physical systems which may pose challenges in reinforcement learning
design. It is particularly an arduous task when handling multi-agent systems
where the delay of one agent could spread to other agents. To resolve this
problem, this paper proposes a novel framework to deal with delays as well as
the non-stationary training issue of multi-agent tasks with model-free deep
reinforcement learning. We formally define the Delay-Aware Markov Game that
incorporates the delays of all agents in the environment. To solve Delay-Aware
Markov Games, we apply centralized training and decentralized execution that
allows agents to use extra information to ease the non-stationarity issue of
the multi-agent systems during training, without the need of a centralized
controller during execution. Experiments are conducted in multi-agent particle
environments including cooperative communication, cooperative navigation, and
competitive experiments. We also test the proposed algorithm in traffic
scenarios that require coordination of all autonomous vehicles to show the
practical value of delay-awareness. Results show that the proposed delay-aware
multi-agent reinforcement learning algorithm greatly alleviates the performance
degradation introduced by delay. Codes and demo videos are available at:
https://github.com/baimingc/delay-aware-MARL.
- Abstract(参考訳): 実世界のサイバー物理システムでは、強化学習設計の課題となるような行動と観察の遅れが広く見られる。
エージェントの遅延が他のエージェントに分散できるマルチエージェントシステムを扱う場合、特に面倒な作業である。
この問題を解決するために,モデルフリーの深層強化学習を用いたマルチエージェントタスクの非定常学習問題とともに,遅延に対処する新しい枠組みを提案する。
我々は,環境内のすべてのエージェントの遅延を組み込んだ遅延対応マルコフゲームを正式に定義する。
遅延対応型マルコフゲームを実現するために,エージェントが集中型コントローラを必要とせず,多エージェントシステムの非定常問題を緩和するために追加情報を利用する集中型トレーニングと分散型実行を適用する。
実験は, 協調コミュニケーション, 協調ナビゲーション, 競争実験を含む多エージェント粒子環境下で実施される。
また,遅延認識の実用的価値を示すために,全自動運転車の協調を必要とする交通シナリオにおいて提案アルゴリズムをテストした。
その結果,遅延認識型マルチエージェント強化学習アルゴリズムは遅延による性能劣化を大幅に軽減することがわかった。
コードとデモビデオはhttps://github.com/baimingc/delay-aware-marl。
関連論文リスト
- AgentScope: A Flexible yet Robust Multi-Agent Platform [66.61478569048477]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
堅牢で柔軟なマルチエージェントアプリケーションを目指して、AgentScopeはビルトインとカスタマイズ可能なフォールトトレランスメカニズムを提供する。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [82.59166059130702]
拡散モデル(DM)は,最近オフライン強化学習を含む様々なシナリオで大きな成功を収めている。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Device Selection for the Coexistence of URLLC and Distributed Learning
Services [12.093278114651524]
分散AIワークフローと超信頼性の低レイテンシ通信(URLLC)サービスをネットワーク上で並列に実行する混合サービスシナリオについて検討する。
コンバージェンス期間中のAIトレーニング遅延を最小限に抑えるために,デバイス選択のためのリスクベースの定式化を提案する。
我々はそれを深層強化学習問題に変換し、ソフトアクター批判アルゴリズムに基づく枠組みを用いて対処する。
論文 参考訳(メタデータ) (2022-12-22T15:36:15Z) - Multi-Agent Reinforcement Learning for Long-Term Network Resource
Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。
我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。
本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T10:29:06Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - Delay-Aware Model-Based Reinforcement Learning for Continuous Control [22.92068095246967]
行動遅延は、実世界の多くのシステムにおける強化学習の性能を低下させる。
本稿では,遅延対応マルコフ決定過程の形式的定義を提案する。
遅延認識モデルに基づく強化学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-05-11T21:13:37Z) - Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach [9.717648122961483]
ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。
従来の手法は計算効率と解の質のジレンマを引き起こす。
そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-13T14:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。