論文の概要: Research on Multi-Agent Communication and Collaborative Decision-Making
Based on Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.17141v1
- Date: Tue, 23 May 2023 14:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:48:01.079276
- Title: Research on Multi-Agent Communication and Collaborative Decision-Making
Based on Deep Reinforcement Learning
- Title(参考訳): 深層強化学習に基づくマルチエージェントコミュニケーションと協調意思決定に関する研究
- Authors: Zeng Da
- Abstract要約: 本論文は,マルチエージェント・プロキシ・ポリシー最適化アルゴリズムに基づくマルチエージェントの協調的意思決定について考察する。
異なるエージェントは、エージェント間の情報交換を通じて局所的な観測によって引き起こされる非定常性を緩和することができる。
実験結果から,マルチエージェント環境の非定常性を改善する効果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a multi-agent environment, In order to overcome and alleviate the
non-stationarity of the multi-agent environment, the mainstream method is to
adopt the framework of Centralized Training Decentralized Execution (CTDE).
This thesis is based on the framework of CTDE, and studies the cooperative
decision-making of multi-agent based on the Multi-Agent Proximal Policy
Optimization (MAPPO) algorithm for multi-agent proximal policy optimization. In
order to alleviate the non-stationarity of the multi-agent environment, a
multi-agent communication mechanism based on weight scheduling and attention
module is introduced. Different agents can alleviate the non-stationarity
caused by local observations through information exchange between agents,
assisting in the collaborative decision-making of agents. The specific method
is to introduce a communication module in the policy network part. The
communication module is composed of a weight generator, a weight scheduler, a
message encoder, a message pool and an attention module. Among them, the weight
generator and weight scheduler will generate weights as the selection basis for
communication, the message encoder is used to compress and encode communication
information, the message pool is used to store communication messages, and the
attention module realizes the interactive processing of the agent's own
information and communication information. This thesis proposes a Multi-Agent
Communication and Global Information Optimization Proximal Policy
Optimization(MCGOPPO)algorithm, and conducted experiments in the SMAC and the
MPE. The experimental results show that the improvement has achieved certain
effects, which can better alleviate the non-stationarity of the multi-agent
environment, and improve the collaborative decision-making ability among the
agents.
- Abstract(参考訳): マルチエージェント環境では、マルチエージェント環境の非定常性を克服し緩和するために、集中型トレーニング分散実行(ctde)の枠組みを採用することが主流である。
この論文はCTDEの枠組みに基づいており、マルチエージェント近似ポリシー最適化のためのMAPPOアルゴリズムに基づくマルチエージェントの協調的意思決定について研究している。
マルチエージェント環境の非定常性を軽減するために,重みスケジューリングとアテンションモジュールに基づくマルチエージェント通信機構を導入する。
異なるエージェントは、エージェント間の情報交換を通じて局所的な観察によって生じる非定常性を緩和し、エージェントの協調的な意思決定を支援する。
特定の方法は、ポリシーネットワーク部に通信モジュールを導入することである。
通信モジュールは、重量発生器、重量スケジューラ、メッセージエンコーダ、メッセージプールおよび注意モジュールからなる。
このうち、重み発生器と重みスケジューラは通信選択基盤として重みを生成し、メッセージエンコーダは通信情報を圧縮してエンコードし、メッセージプールは通信メッセージを格納し、注意モジュールはエージェント自身の情報と通信情報との対話的な処理を実現する。
本論文では,マルチエージェント通信とグローバル情報最適化(MCGOPPO)のアルゴリズムを提案し,SMACとMPEの実験を行った。
実験の結果,マルチエージェント環境の非定常性を緩和し,エージェント間の協調的意思決定能力を向上させる効果が得られた。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - DCMAC: Demand-aware Customized Multi-Agent Communication via Upper Bound Training [9.068971933560416]
本稿では,アッパーバウンドトレーニングを用いて理想的なポリシを得る,要求対応のカスタマイズ型マルチエージェント通信プロトコルを提案する。
実験結果から,DCMACは,制約のない,通信制約のないシナリオにおいて,ベースラインアルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-11T09:23:27Z) - Verco: Learning Coordinated Verbal Communication for Multi-agent Reinforcement Learning [42.27106057372819]
本稿では,大規模言語モデルをエージェントに組み込むマルチエージェント強化学習アルゴリズムを提案する。
フレームワークにはメッセージモジュールとアクションモジュールがある。
オーバークッキングゲームで行った実験は,既存の手法の学習効率と性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-27T05:10:33Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。
セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-13T02:35:57Z) - Optimization of Image Transmission in a Cooperative Semantic
Communication Networks [68.2233384648671]
画像伝送のためのセマンティック通信フレームワークを開発した。
サーバは、セマンティックコミュニケーション技術を用いて、画像の集合を協調的にユーザへ送信する。
抽出した意味情報と原画像との相関関係を測定するために,マルチモーダル・メトリックを提案する。
論文 参考訳(メタデータ) (2023-01-01T15:59:13Z) - Coordinating Policies Among Multiple Agents via an Intelligent
Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。
本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:11:33Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z) - Inference-Based Deterministic Messaging For Multi-Agent Communication [1.8275108630751844]
行列に基づくシグナリングゲームにおける学習について検討し,分散化手法がサブオプティマティリティポリシに収束できることを示した。
次に、送信者が送信者の観察を推測するのを助ける最良のメッセージを決定的に選択するメッセージポリシーの修正を提案します。
論文 参考訳(メタデータ) (2021-03-03T03:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。