論文の概要: Reward-Independent Messaging for Decentralized Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.21985v1
- Date: Wed, 28 May 2025 05:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.425465
- Title: Reward-Independent Messaging for Decentralized Multi-Agent Reinforcement Learning
- Title(参考訳): 分散マルチエージェント強化学習のための逆非依存メッセージング
- Authors: Naoto Yoshida, Tadahiro Taniguchi,
- Abstract要約: MARL-CPCは、完全に分散化された独立したエージェント間の通信を可能にするフレームワークである。
アクション空間の一部としてメッセージを扱う従来の方法とは異なり、MARL-CPCはメッセージを状態推論にリンクする。
ベンチマークの結果、Bandit-CPCとIPPO-CPCは標準的なメッセージ・アズ・アクション・アプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 7.872846260392537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-agent reinforcement learning (MARL), effective communication improves agent performance, particularly under partial observability. We propose MARL-CPC, a framework that enables communication among fully decentralized, independent agents without parameter sharing. MARL-CPC incorporates a message learning model based on collective predictive coding (CPC) from emergent communication research. Unlike conventional methods that treat messages as part of the action space and assume cooperation, MARL-CPC links messages to state inference, supporting communication in non-cooperative, reward-independent settings. We introduce two algorithms -Bandit-CPC and IPPO-CPC- and evaluate them in non-cooperative MARL tasks. Benchmarks show that both outperform standard message-as-action approaches, establishing effective communication even when messages offer no direct benefit to the sender. These results highlight MARL-CPC's potential for enabling coordination in complex, decentralized environments.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、特に部分可観測性の下で、効果的なコミュニケーションによりエージェント性能が向上する。
本稿では,完全に分散化された独立したエージェント間の通信をパラメータ共有なしで行えるフレームワークであるMARL-CPCを提案する。
MARL-CPCは、緊急通信研究からの集合予測符号化(CPC)に基づくメッセージ学習モデルを組み込んでいる。
アクション空間の一部としてメッセージを扱う従来の方法とは異なり、MARL-CPCはメッセージを状態推論にリンクし、非協調的で報酬に依存しない環境でのコミュニケーションをサポートする。
我々はBandit-CPCとIPPO-CPCの2つのアルゴリズムを導入し、非協調的なMARLタスクで評価する。
ベンチマークでは、どちらも標準のメッセージ・アズ・アクション・アプローチより優れており、メッセージが送信者に直接的利益を提供しなくても効果的なコミュニケーションを確立する。
これらの結果は、複雑な分散環境における協調を可能にするMARL-CPCの可能性を強調している。
関連論文リスト
- eQMARL: Entangled Quantum Multi-Agent Reinforcement Learning for Distributed Cooperation over Quantum Channels [98.314893665023]
量子コンピューティングは、マルチエージェント環境における量子絡み合いと協調の潜在的なシナジーを引き起こした。
現在の最先端量子MARL(QMARL)の実装は、古典的な情報共有に依存している。
eQMARL(eQMARL)は、量子チャネル上での協調を容易にする分散型アクター批判フレームワークである。
論文 参考訳(メタデータ) (2024-05-24T18:43:05Z) - ClusterComm: Discrete Communication in Decentralized MARL using Internal
Representation Clustering [6.839032445412096]
ClusterCommは、エージェントが中央制御ユニットなしで個別に通信する、完全に分散化されたMARLフレームワークである。
エージェントのポリシネットワークのアクティベーションを最後に隠されたレイヤにクラスタリングするMini-Batch-K-Meansは、それらを個別のメッセージに変換する。
論文 参考訳(メタデータ) (2024-01-07T14:53:43Z) - Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。
第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。
その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。
CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文 参考訳(メタデータ) (2023-12-25T03:33:08Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - Coordinating Policies Among Multiple Agents via an Intelligent
Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。
本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:11:33Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。