論文の概要: Minimizing Communication while Maximizing Performance in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.08482v1
- Date: Tue, 15 Jun 2021 23:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 08:35:00.075157
- Title: Minimizing Communication while Maximizing Performance in Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における性能最大化とコミュニケーションの最小化
- Authors: Varun Kumar Vijay and Hassam Sheikh and Somdeb Majumdar and Mariano
Phielipp
- Abstract要約: エージェント間通信は、コーディネーションを必要とするマルチエージェントタスクのパフォーマンスを著しく向上させることができる。
通信が帯域幅、電力、ネットワーク容量といったシステムの制約によって制限されるような現実世界のアプリケーションでは、送信されるメッセージの数を減らす必要がある。
性能を損なうことなく、コミュニケーションを75%削減できることを示す。
- 参考スコア(独自算出の注目度): 5.612141846711729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inter-agent communication can significantly increase performance in
multi-agent tasks that require co-ordination to achieve a shared goal. Prior
work has shown that it is possible to learn inter-agent communication protocols
using multi-agent reinforcement learning and message-passing network
architectures. However, these models use an unconstrained broadcast
communication model, in which an agent communicates with all other agents at
every step, even when the task does not require it. In real-world applications,
where communication may be limited by system constraints like bandwidth, power
and network capacity, one might need to reduce the number of messages that are
sent. In this work, we explore a simple method of minimizing communication
while maximizing performance in multi-task learning: simultaneously optimizing
a task-specific objective and a communication penalty. We show that the
objectives can be optimized using Reinforce and the Gumbel-Softmax
reparameterization. We introduce two techniques to stabilize training: 50%
training and message forwarding. Training with the communication penalty on
only 50% of the episodes prevents our models from turning off their outgoing
messages. Second, repeating messages received previously helps models retain
information, and further improves performance. With these techniques, we show
that we can reduce communication by 75% with no loss of performance.
- Abstract(参考訳): エージェント間通信は、共有目標を達成するために協調を必要とするマルチエージェントタスクのパフォーマンスを著しく向上させる。
これまで,マルチエージェント強化学習とメッセージパッシングネットワークアーキテクチャを用いて,エージェント間通信プロトコルの学習が可能であった。
しかしながら、これらのモデルは制約のないブロードキャスト通信モデルを使用し、タスクが不要な場合でも、エージェントは各ステップで他のすべてのエージェントと通信する。
通信が帯域幅や電力、ネットワーク容量といったシステムの制約によって制限される現実世界のアプリケーションでは、送信されるメッセージの数を減らす必要がある。
本研究では,タスク固有の目的とコミュニケーションペナルティを同時に最適化するマルチタスク学習におけるパフォーマンスを最大化しつつ,コミュニケーションを最小化する簡単な方法を検討する。
強化とグンベル・ソフトマックス再パラメータ化を用いて目的を最適化できることを示す。
トレーニングの安定化には,トレーニングの50%とメッセージフォワードの2つのテクニックを導入する。
たった50%のエピソードにおけるコミュニケーションペナルティのトレーニングは、私たちのモデルが発信メッセージをオフにするのを防ぐ。
第二に、以前受信した繰り返しメッセージは、モデルが情報を保持するのに役立つ。
これらの手法により,性能を損なうことなく,コミュニケーションを75%削減できることを示す。
関連論文リスト
- Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。
第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。
その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。
CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文 参考訳(メタデータ) (2023-12-25T03:33:08Z) - Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。
CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文 参考訳(メタデータ) (2023-10-13T07:52:04Z) - Multi-Receiver Task-Oriented Communications via Multi-Task Deep Learning [49.83882366499547]
本稿では、送信機が複数の受信機と通信する環境でのタスク指向通信について検討する。
複数のタスクを完了し、複数の受信機と通信する共同最適化のためのマルチタスク深層学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T01:34:34Z) - Towards True Lossless Sparse Communication in Multi-Agent Systems [1.911678487931003]
コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。
スパース個別化コミュニケーションの学習における最近の研究は、訓練中に高いばらつきに悩まされている。
情報ボトルネックを表現学習問題として、空間性を再設定するために使用します。
論文 参考訳(メタデータ) (2022-11-30T20:43:34Z) - Over-communicate no more: Situated RL agents learn concise communication
protocols [78.28898217947467]
互いに効果的に効率的にコミュニケーションできる人工エージェントをいかに設計するかは、不明である。
強化学習(RL)を用いたコミュニケーションの出現に関する研究
エージェントがコミュニケーションを行うための環境行為を強制しなければならない多段階タスクにおける位置的コミュニケーションについて検討する。
テストされたすべてのプレッシャーは過剰なコミュニケーションを阻害する可能性があるが、位置通信は最も効果的であり、努力のコストとは異なり、発生に悪影響を及ぼさない。
論文 参考訳(メタデータ) (2022-11-02T21:08:14Z) - Learning Practical Communication Strategies in Cooperative Multi-Agent
Reinforcement Learning [5.539117319607963]
現実的な無線ネットワークにおける通信は、エージェントの移動量によってネットワーク条件が変化するため、信頼性が低い。
本稿では,3つの基本的な問題に対処し,実践的なコミュニケーション戦略を学ぶための枠組みを提案する。
我々は,最先端技術と比較して,ゲーム性能,収束速度,通信効率が著しく向上したことを示す。
論文 参考訳(メタデータ) (2022-09-02T22:18:43Z) - FCMNet: Full Communication Memory Net for Team-Level Cooperation in
Multi-Agent Systems [15.631744703803806]
我々は、エージェントが効果的なマルチホップ通信プロトコルを同時に学習できる強化学習ベースのアプローチであるFCMNetを紹介する。
単純なマルチホップトポロジを用いて、各エージェントに各ステップで他のエージェントが逐次エンコードした情報を受信する能力を与える。
FCMNetは、すべてのStarCraft IIマイクロマネジメントタスクにおいて、最先端のコミュニケーションベースの強化学習方法より優れている。
論文 参考訳(メタデータ) (2022-01-28T09:12:01Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Learning Individually Inferred Communication for Multi-Agent Cooperation [37.56115000150748]
我々はエージェントエージェントがエージェントエージェントコミュニケーションの事前学習を可能にするために、個別推論通信(I2C)を提案する。
先行知識は因果推論によって学習され、フィードフォワードニューラルネットワークによって実現される。
I2Cは通信オーバーヘッドを減らすだけでなく、様々なマルチエージェント協調シナリオのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-11T14:07:57Z) - Learning Structured Communication for Multi-agent Reinforcement Learning [104.64584573546524]
本研究では,マルチエージェント強化学習(MARL)環境下での大規模マルチエージェント通信機構について検討する。
本稿では、より柔軟で効率的な通信トポロジを用いて、LSC(Learning Structured Communication)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-11T07:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。