論文の概要: Correcting Experience Replay for Multi-Agent Communication
- arxiv url: http://arxiv.org/abs/2010.01192v2
- Date: Sun, 28 Feb 2021 22:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:16:06.400713
- Title: Correcting Experience Replay for Multi-Agent Communication
- Title(参考訳): マルチエージェント通信のための修正体験リプレイ
- Authors: Sanjeevan Ahilan, Peter Dayan
- Abstract要約: マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の課題について考察する。
一般的なアプローチは、リプレイバッファからサンプリングされたデータを使って、政治外を学ぶことである。
MARLにより誘導される観測通信の非定常性を考慮した「通信補正」を導入する。
- 参考スコア(独自算出の注目度): 18.12281605882891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning to communicate using multi-agent
reinforcement learning (MARL). A common approach is to learn off-policy, using
data sampled from a replay buffer. However, messages received in the past may
not accurately reflect the current communication policy of each agent, and this
complicates learning. We therefore introduce a 'communication correction' which
accounts for the non-stationarity of observed communication induced by
multi-agent learning. It works by relabelling the received message to make it
likely under the communicator's current policy, and thus be a better reflection
of the receiver's current environment. To account for cases in which agents are
both senders and receivers, we introduce an ordered relabelling scheme. Our
correction is computationally efficient and can be integrated with a range of
off-policy algorithms. We find in our experiments that it substantially
improves the ability of communicating MARL systems to learn across a variety of
cooperative and competitive tasks.
- Abstract(参考訳): マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の問題点を考察する。
一般的なアプローチは、リプレイバッファからサンプリングされたデータを使用して、オフポリシーを学ぶことだ。
しかし、過去に受信したメッセージは、各エージェントの現在の通信方針を正確に反映するものではなく、学習を複雑にする。
そこで我々は,マルチエージェント学習による観察コミュニケーションの非定常性を考慮した「コミュニケーション補正」を導入する。
受信したメッセージをリラベリングすることで、通信者の現在の方針に合致するようにし、受信者の現在の環境をより良く反映する。
エージェントが送信側と受信側の両方である場合を考慮し,順序付きリラベル方式を導入する。
我々の補正は計算効率が良く、様々なオフポリシーアルゴリズムと統合できる。
実験の結果,多種多様な協調的・競争的な課題において,MARLシステムのコミュニケーション能力を大幅に向上することがわかった。
関連論文リスト
- DCMAC: Demand-aware Customized Multi-Agent Communication via Upper Bound Training [9.068971933560416]
本稿では,アッパーバウンドトレーニングを用いて理想的なポリシを得る,要求対応のカスタマイズ型マルチエージェント通信プロトコルを提案する。
実験結果から,DCMACは,制約のない,通信制約のないシナリオにおいて,ベースラインアルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-11T09:23:27Z) - Batch Selection and Communication for Active Learning with Edge Labeling [54.64985724916654]
コミュニケーション拘束型ベイズ能動的知識蒸留(CC-BAKD)
本研究は,コミュニケーション制約型ベイズ能動的知識蒸留(CC-BAKD)を紹介する。
論文 参考訳(メタデータ) (2023-11-14T10:23:00Z) - An In-Depth Analysis of Discretization Methods for Communication
Learning using Backpropagation with Multi-Agent Reinforcement Learning [0.0]
本稿では,最先端の離散化手法と新しいアプローチを比較した。
本稿では,DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて述べる。
本報告では,ST-DRU法は, 異なる環境における識別方法のすべてにおいて, 最適な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-09T13:13:19Z) - AC2C: Adaptively Controlled Two-Hop Communication for Multi-Agent
Reinforcement Learning [4.884877440051105]
本稿では,AC2C(Adaptive Controlled Two-Hop Communication)と呼ばれる新しい通信プロトコルを提案する。
AC2Cは、エージェント間の長距離情報交換によるパフォーマンス向上を可能にするために、適応的な2ホップ通信戦略を採用している。
本稿では,3つの協調型マルチエージェントタスクにおけるAC2Cの評価を行った。
論文 参考訳(メタデータ) (2023-02-24T09:00:34Z) - Scalable Communication for Multi-Agent Reinforcement Learning via
Transformer-Based Email Mechanism [9.607941773452925]
コミュニケーションはマルチエージェント強化学習(MARL)における協調性を著しく向上させる
本稿では,部分的に観測されたタスクに対するMARL通信のスケーラビリティ問題に対処するための新しいフレームワークである Transformer-based Email Mechanism (TEM) を提案する。
論文 参考訳(メタデータ) (2023-01-05T05:34:30Z) - Over-communicate no more: Situated RL agents learn concise communication
protocols [78.28898217947467]
互いに効果的に効率的にコミュニケーションできる人工エージェントをいかに設計するかは、不明である。
強化学習(RL)を用いたコミュニケーションの出現に関する研究
エージェントがコミュニケーションを行うための環境行為を強制しなければならない多段階タスクにおける位置的コミュニケーションについて検討する。
テストされたすべてのプレッシャーは過剰なコミュニケーションを阻害する可能性があるが、位置通信は最も効果的であり、努力のコストとは異なり、発生に悪影響を及ぼさない。
論文 参考訳(メタデータ) (2022-11-02T21:08:14Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z) - Coordinating Policies Among Multiple Agents via an Intelligent
Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。
本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:11:33Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - Learning Individually Inferred Communication for Multi-Agent Cooperation [37.56115000150748]
我々はエージェントエージェントがエージェントエージェントコミュニケーションの事前学習を可能にするために、個別推論通信(I2C)を提案する。
先行知識は因果推論によって学習され、フィードフォワードニューラルネットワークによって実現される。
I2Cは通信オーバーヘッドを減らすだけでなく、様々なマルチエージェント協調シナリオのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-11T14:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。