論文の概要: RGMComm: Return Gap Minimization Via Discrete Communications In
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.03358v4
- Date: Wed, 13 Dec 2023 19:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:30:03.635740
- Title: RGMComm: Return Gap Minimization Via Discrete Communications In
Multi-Agent Reinforcement Learning
- Title(参考訳): RGMComm:マルチエージェント強化学習における離散通信によるギャップ最小化
- Authors: Jingdi Chen, Tian Lan
- Abstract要約: マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。
本稿では、離散メッセージ生成関数の驚くほど単純な設計であるReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。
評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 24.882741445203948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is crucial for solving cooperative Multi-Agent Reinforcement
Learning tasks in partially observable Markov Decision Processes. Existing
works often rely on black-box methods to encode local information/features into
messages shared with other agents, leading to the generation of continuous
messages with high communication overhead and poor interpretability. Prior
attempts at discrete communication methods generate one-hot vectors trained as
part of agents' actions and use the Gumbel softmax operation for calculating
gradients, which are all heuristic designs that do not provide any quantitative
guarantees on the expected return. This paper establishes an upper bound on the
return gap between an ideal policy with full observability and an optimal
partially observable policy with discrete communication. This result enables us
to recast multi-agent communication into a novel online clustering problem over
the local observations at each agent, with messages as cluster labels and the
upper bound on the return gap as clustering loss. To minimize the return gap,
we propose the Return-Gap-Minimization Communication (RGMComm) algorithm, which
is a surprisingly simple design of discrete message generation functions and is
integrated with reinforcement learning through the utilization of a novel
Regularized Information Maximization loss function, which incorporates
cosine-distance as the clustering metric. Evaluations show that RGMComm
significantly outperforms state-of-the-art multi-agent communication baselines
and can achieve nearly optimal returns with few-bit messages that are naturally
interpretable.
- Abstract(参考訳): マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。
既存の作業は、ローカル情報や特徴を他のエージェントと共有するメッセージにエンコードするブラックボックスメソッドに依存しており、通信オーバーヘッドが高く、解釈性が低い連続メッセージの生成につながっている。
離散的コミュニケーション手法の先行の試みはエージェントの行動の一部として訓練された1つのホットベクトルを生成し、勾配を計算するためにグンベル・ソフトマックス演算(gumbel softmax operation)を使用する。
本稿では、完全な可観測性を持つ理想的なポリシーと、離散的な通信を伴う最適部分可観測性ポリシーとの間のリターンギャップの上限を確立する。
この結果から,マルチエージェント通信を各エージェントの局所的な観測上の新たなオンラインクラスタリング問題に再キャストすることが可能となり,メッセージはクラスタラベル,アッパーバウンドはクラスタリング損失となる。
リターンギャップを最小限に抑えるため、離散メッセージ生成関数の驚くほど単純な設計であり、クラスタリングメトリックとしてコサイン距離を組み込んだ新しい正規化情報最大化損失関数を用いて強化学習と統合されたReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。
評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大幅に上回り、自然に解釈可能な数ビットメッセージでほぼ最適なリターンを達成できることがわかった。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Asynchronous Message-Passing and Zeroth-Order Optimization Based Distributed Learning with a Use-Case in Resource Allocation in Communication Networks [11.182443036683225]
分散学習と適応は大きな関心を集め、機械学習信号処理に広く応用されている。
本稿では、エージェントが共通のタスクに向けて協調するシナリオに焦点を当てる。
送信者として働くエージェントは、グローバルな報酬を最大化するために、それぞれのポリシーを共同で訓練する。
論文 参考訳(メタデータ) (2023-11-08T11:12:27Z) - Generative AI-aided Joint Training-free Secure Semantic Communications
via Multi-modal Prompts [89.04751776308656]
本稿では,多モデルプロンプトを用いたGAI支援型SemComシステムを提案する。
セキュリティ上の懸念に応えて、フレンドリーなジャマーによって支援される隠蔽通信の応用を紹介する。
論文 参考訳(メタデータ) (2023-09-05T23:24:56Z) - Communication-Efficient Zeroth-Order Distributed Online Optimization:
Algorithm, Theory, and Applications [9.045332526072828]
本稿では,目標追跡のためのフェデレーション学習環境におけるマルチエージェントゼロ階オンライン最適化問題に焦点を当てる。
提案手法は、2つの関連するアプリケーションにおけるエラーとエラーの観点からさらに解析される。
論文 参考訳(メタデータ) (2023-06-09T03:51:45Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Efficient Communication via Self-supervised Information Aggregation for
Online and Offline Multi-agent Reinforcement Learning [12.334522644561591]
MARL(Multi-Agent Reinforcement Learning)の協調学習において,効率的なメッセージアグリゲーションは協調に不可欠である,と我々は主張する。
本稿では, エージェントが受信したメッセージをコンパクトな表現に集約し, ローカルポリシーの強化に高い関連性を持たせることができる, 自己教師型情報集約(MASIA)によるマルチエージェント通信を提案する。
私たちはマルチエージェント通信のためのオフラインベンチマークを構築しています。
論文 参考訳(メタデータ) (2023-02-19T16:02:16Z) - Optimization of Image Transmission in a Cooperative Semantic
Communication Networks [68.2233384648671]
画像伝送のためのセマンティック通信フレームワークを開発した。
サーバは、セマンティックコミュニケーション技術を用いて、画像の集合を協調的にユーザへ送信する。
抽出した意味情報と原画像との相関関係を測定するために,マルチモーダル・メトリックを提案する。
論文 参考訳(メタデータ) (2023-01-01T15:59:13Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Learning-based Measurement Scheduling for Loosely-Coupled Cooperative
Localization [3.616948583169635]
協調的ローカライゼーションにおいて、コミュニケーションモバイルエージェントは、デッドレコニングに基づくグローバルローカライゼーションを改善するために、エージェント間相対測定を使用する。
測定スケジューリングにより、エージェントは、利用可能なエージェント間相対的な測定のサブセットを、その計算リソースが制限されたときに処理すべきかどうかを決定することができる。
本稿では,SGの効用関数の代用としてニューラルネットワークに基づく代理モデルを用いて,逐次計算手法に従うCLの測定スケジューリングを提案する。
論文 参考訳(メタデータ) (2021-12-06T08:06:29Z) - Task-Oriented Communication for Multi-Device Cooperative Edge Inference [14.249444124834719]
協調エッジ推論は、単一デバイスの限られた感知能力を克服することができるが、通信オーバーヘッドを大幅に増加させ、過度の遅延を引き起こす可能性がある。
タスク指向方式で局所特徴抽出と分散特徴符号化を最適化する学習型通信方式を提案する。
論文 参考訳(メタデータ) (2021-09-01T03:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。