Fugu-MT 論文翻訳(概要): Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and Competitive Environments

論文の概要: Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and Competitive Environments

arxiv url: http://arxiv.org/abs/2005.05441v2
Date: Sat, 29 Aug 2020 01:27:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 20:02:58.490791
Title: Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and Competitive Environments
Title（参考訳）: 協調・競争環境のための遅延対応多エージェント強化学習
Authors: Baiming Chen, Mengdi Xu, Zuxin Liu, Liang Li, Ding Zhao
Abstract要約: アクションと観察の遅延は、現実世界のサイバー物理システムに多く存在する。本稿では,遅延に対処する新しいフレームワークと,マルチエージェントタスクの非定常トレーニング問題を提案する。実験は, 協調コミュニケーション, 協調ナビゲーション, 競争実験を含む多エージェント粒子環境下で実施される。
参考スコア（独自算出の注目度）: 23.301322095357808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Action and observation delays exist prevalently in the real-world cyber-physical systems which may pose challenges in reinforcement learning design. It is particularly an arduous task when handling multi-agent systems where the delay of one agent could spread to other agents. To resolve this problem, this paper proposes a novel framework to deal with delays as well as the non-stationary training issue of multi-agent tasks with model-free deep reinforcement learning. We formally define the Delay-Aware Markov Game that incorporates the delays of all agents in the environment. To solve Delay-Aware Markov Games, we apply centralized training and decentralized execution that allows agents to use extra information to ease the non-stationarity issue of the multi-agent systems during training, without the need of a centralized controller during execution. Experiments are conducted in multi-agent particle environments including cooperative communication, cooperative navigation, and competitive experiments. We also test the proposed algorithm in traffic scenarios that require coordination of all autonomous vehicles to show the practical value of delay-awareness. Results show that the proposed delay-aware multi-agent reinforcement learning algorithm greatly alleviates the performance degradation introduced by delay. Codes and demo videos are available at: https://github.com/baimingc/delay-aware-MARL.
Abstract（参考訳）: 実世界のサイバー物理システムでは、強化学習設計の課題となるような行動と観察の遅れが広く見られる。エージェントの遅延が他のエージェントに分散できるマルチエージェントシステムを扱う場合、特に面倒な作業である。この問題を解決するために,モデルフリーの深層強化学習を用いたマルチエージェントタスクの非定常学習問題とともに,遅延に対処する新しい枠組みを提案する。我々は,環境内のすべてのエージェントの遅延を組み込んだ遅延対応マルコフゲームを正式に定義する。遅延対応型マルコフゲームを実現するために,エージェントが集中型コントローラを必要とせず,多エージェントシステムの非定常問題を緩和するために追加情報を利用する集中型トレーニングと分散型実行を適用する。実験は, 協調コミュニケーション, 協調ナビゲーション, 競争実験を含む多エージェント粒子環境下で実施される。また,遅延認識の実用的価値を示すために,全自動運転車の協調を必要とする交通シナリオにおいて提案アルゴリズムをテストした。その結果,遅延認識型マルチエージェント強化学習アルゴリズムは遅延による性能劣化を大幅に軽減することがわかった。コードとデモビデオはhttps://github.com/baimingc/delay-aware-marl。

関連論文リスト

Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-06-17T11:11:37Z)
Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。提案手法の有効性を数値解析により検証した。
論文参考訳（メタデータ） (2024-11-04T17:48:02Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文参考訳（メタデータ） (2024-06-05T09:45:26Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Device Selection for the Coexistence of URLLC and Distributed Learning Services [12.093278114651524]
分散AIワークフローと超信頼性の低レイテンシ通信(URLLC)サービスをネットワーク上で並列に実行する混合サービスシナリオについて検討する。コンバージェンス期間中のAIトレーニング遅延を最小限に抑えるために,デバイス選択のためのリスクベースの定式化を提案する。我々はそれを深層強化学習問題に変換し、ソフトアクター批判アルゴリズムに基づく枠組みを用いて対処する。
論文参考訳（メタデータ） (2022-12-22T15:36:15Z)
Multi-Agent Reinforcement Learning for Long-Term Network Resource Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T10:29:06Z)
Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文参考訳（メタデータ） (2022-05-27T02:21:04Z)
Coach-assisted Multi-Agent Reinforcement Learning Framework for Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。本稿では,教師支援型多エージェント強化学習フレームワークを提案する。私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文参考訳（メタデータ） (2022-03-16T08:22:45Z)
Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity, and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文参考訳（メタデータ） (2020-12-21T18:55:55Z)
Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-10T18:19:40Z)
Delay-Aware Model-Based Reinforcement Learning for Continuous Control [22.92068095246967]
行動遅延は、実世界の多くのシステムにおける強化学習の性能を低下させる。本稿では,遅延対応マルコフ決定過程の形式的定義を提案する。遅延認識モデルに基づく強化学習フレームワークを開発した。
論文参考訳（メタデータ） (2020-05-11T21:13:37Z)
Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent Reinforcement Learning Approach [9.717648122961483]
ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。従来の手法は計算効率と解の質のジレンマを引き起こす。そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-13T14:26:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。