論文の概要: Efficient Communication via Self-supervised Information Aggregation for
Online and Offline Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.09605v1
- Date: Sun, 19 Feb 2023 16:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:32:09.453776
- Title: Efficient Communication via Self-supervised Information Aggregation for
Online and Offline Multi-agent Reinforcement Learning
- Title(参考訳): オンライン・オフラインマルチエージェント強化学習のための自己教師型情報集約による効率的なコミュニケーション
- Authors: Cong Guan, Feng Chen, Lei Yuan, Zongzhang Zhang, Yang Yu
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)の協調学習において,効率的なメッセージアグリゲーションは協調に不可欠である,と我々は主張する。
本稿では, エージェントが受信したメッセージをコンパクトな表現に集約し, ローカルポリシーの強化に高い関連性を持たせることができる, 自己教師型情報集約(MASIA)によるマルチエージェント通信を提案する。
私たちはマルチエージェント通信のためのオフラインベンチマークを構築しています。
- 参考スコア(独自算出の注目度): 12.334522644561591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing messages from teammates can improve coordination in cooperative
Multi-agent Reinforcement Learning (MARL). Previous works typically combine raw
messages of teammates with local information as inputs for policy. However,
neglecting message aggregation poses significant inefficiency for policy
learning. Motivated by recent advances in representation learning, we argue
that efficient message aggregation is essential for good coordination in
cooperative MARL. In this paper, we propose Multi-Agent communication via
Self-supervised Information Aggregation (MASIA), where agents can aggregate the
received messages into compact representations with high relevance to augment
the local policy. Specifically, we design a permutation invariant message
encoder to generate common information-aggregated representation from messages
and optimize it via reconstructing and shooting future information in a
self-supervised manner. Hence, each agent would utilize the most relevant parts
of the aggregated representation for decision-making by a novel message
extraction mechanism. Furthermore, considering the potential of offline
learning for real-world applications, we build offline benchmarks for
multi-agent communication, which is the first as we know. Empirical results
demonstrate the superiority of our method in both online and offline settings.
We also release the built offline benchmarks in this paper as a testbed for
communication ability validation to facilitate further future research.
- Abstract(参考訳): チームメイトからのメッセージを利用することで、協調的マルチエージェント強化学習(MARL)におけるコーディネーションを改善することができる。
以前の作業は通常、チームメイトの生のメッセージをポリシーの入力としてローカル情報と組み合わせます。
しかし、メッセージ集約を無視することは、ポリシー学習に重大な非効率をもたらす。
近年の表現学習の進歩により、協調的なMARLにおいて、効率的なメッセージアグリゲーションが良い協調に欠かせないと論じている。
本稿では, エージェントが受信したメッセージをコンパクトな表現に集約し, 高い関連性を持ち, 局所的なポリシーの強化を図るために, 自己教師情報集約 (masia) によるマルチエージェント通信を提案する。
具体的には、置換不変メッセージエンコーダを設計し、メッセージから共通情報集約表現を生成し、将来の情報を自己管理的に再構成および撮影することで最適化する。
したがって、各エージェントは、新しいメッセージ抽出機構により、集約表現の最も関連する部分を利用して意思決定を行う。
さらに,実世界のアプリケーションにおけるオフライン学習の可能性を考慮して,マルチエージェント通信のためのオフラインベンチマークを構築した。
実験結果は,オンラインとオフラインの両方において,提案手法が優れていることを示した。
また,本論文では,組込みオフラインベンチマークをコミュニケーション能力検証のためのテストベッドとして公開し,今後の研究を支援する。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Verco: Learning Coordinated Verbal Communication for Multi-agent Reinforcement Learning [42.27106057372819]
本稿では,大規模言語モデルをエージェントに組み込むマルチエージェント強化学習アルゴリズムを提案する。
フレームワークにはメッセージモジュールとアクションモジュールがある。
オーバークッキングゲームで行った実験は,既存の手法の学習効率と性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-27T05:10:33Z) - Pragmatic Communication in Multi-Agent Collaborative Perception [80.14322755297788]
協調的な知覚は、知覚能力とコミュニケーションコストのトレードオフをもたらす。
PragCommは2つの重要なコンポーネントを持つマルチエージェント協調認識システムである。
PragCommは、32.7K以上の通信量で従来手法より一貫して優れていた。
論文 参考訳(メタデータ) (2024-01-23T11:58:08Z) - Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。
第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。
その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。
CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文 参考訳(メタデータ) (2023-12-25T03:33:08Z) - RGMComm: Return Gap Minimization via Discrete Communications in
Multi-Agent Reinforcement Learning [33.86277578441437]
マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。
本稿では、離散メッセージ生成関数の驚くほど単純な設計であるReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。
評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-08-07T07:26:55Z) - Scalable Communication for Multi-Agent Reinforcement Learning via
Transformer-Based Email Mechanism [9.607941773452925]
コミュニケーションはマルチエージェント強化学習(MARL)における協調性を著しく向上させる
本稿では,部分的に観測されたタスクに対するMARL通信のスケーラビリティ問題に対処するための新しいフレームワークである Transformer-based Email Mechanism (TEM) を提案する。
論文 参考訳(メタデータ) (2023-01-05T05:34:30Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Coordinating Policies Among Multiple Agents via an Intelligent
Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。
本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:11:33Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Networked Multi-Agent Reinforcement Learning with Emergent Communication [18.47483427884452]
MARL(Multi-Agent Reinforcement Learning)法は,他の学習エージェントの存在下で活動するエージェントに対して最適なポリシーを求める。
コーディネートするひとつの方法は、相互通信を学ぶことです。
エージェントは共通のタスクを実行するために学習しながら言語を開発することができるか?
論文 参考訳(メタデータ) (2020-04-06T16:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。