Fugu-MT 論文翻訳(概要): Reward-Independent Messaging for Decentralized Multi-Agent Reinforcement Learning

論文の概要: Reward-Independent Messaging for Decentralized Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.21985v1
Date: Wed, 28 May 2025 05:23:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.425465
Title: Reward-Independent Messaging for Decentralized Multi-Agent Reinforcement Learning
Title（参考訳）: 分散マルチエージェント強化学習のための逆非依存メッセージング
Authors: Naoto Yoshida, Tadahiro Taniguchi,
Abstract要約: MARL-CPCは、完全に分散化された独立したエージェント間の通信を可能にするフレームワークである。アクション空間の一部としてメッセージを扱う従来の方法とは異なり、MARL-CPCはメッセージを状態推論にリンクする。ベンチマークの結果、Bandit-CPCとIPPO-CPCは標準的なメッセージ・アズ・アクション・アプローチよりも優れていた。
参考スコア（独自算出の注目度）: 7.872846260392537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In multi-agent reinforcement learning (MARL), effective communication improves agent performance, particularly under partial observability. We propose MARL-CPC, a framework that enables communication among fully decentralized, independent agents without parameter sharing. MARL-CPC incorporates a message learning model based on collective predictive coding (CPC) from emergent communication research. Unlike conventional methods that treat messages as part of the action space and assume cooperation, MARL-CPC links messages to state inference, supporting communication in non-cooperative, reward-independent settings. We introduce two algorithms -Bandit-CPC and IPPO-CPC- and evaluate them in non-cooperative MARL tasks. Benchmarks show that both outperform standard message-as-action approaches, establishing effective communication even when messages offer no direct benefit to the sender. These results highlight MARL-CPC's potential for enabling coordination in complex, decentralized environments.
Abstract（参考訳）: マルチエージェント強化学習(MARL)では、特に部分可観測性の下で、効果的なコミュニケーションによりエージェント性能が向上する。本稿では,完全に分散化された独立したエージェント間の通信をパラメータ共有なしで行えるフレームワークであるMARL-CPCを提案する。 MARL-CPCは、緊急通信研究からの集合予測符号化(CPC)に基づくメッセージ学習モデルを組み込んでいる。アクション空間の一部としてメッセージを扱う従来の方法とは異なり、MARL-CPCはメッセージを状態推論にリンクし、非協調的で報酬に依存しない環境でのコミュニケーションをサポートする。我々はBandit-CPCとIPPO-CPCの2つのアルゴリズムを導入し、非協調的なMARLタスクで評価する。ベンチマークでは、どちらも標準のメッセージ・アズ・アクション・アプローチより優れており、メッセージが送信者に直接的利益を提供しなくても効果的なコミュニケーションを確立する。これらの結果は、複雑な分散環境における協調を可能にするMARL-CPCの可能性を強調している。

関連論文リスト

eQMARL: Entangled Quantum Multi-Agent Reinforcement Learning for Distributed Cooperation over Quantum Channels [98.314893665023]
量子コンピューティングは、マルチエージェント環境における量子絡み合いと協調の潜在的なシナジーを引き起こした。現在の最先端量子MARL(QMARL)の実装は、古典的な情報共有に依存している。 eQMARL(eQMARL)は、量子チャネル上での協調を容易にする分散型アクター批判フレームワークである。
論文参考訳（メタデータ） (2024-05-24T18:43:05Z)
ClusterComm: Discrete Communication in Decentralized MARL using Internal Representation Clustering [6.839032445412096]
ClusterCommは、エージェントが中央制御ユニットなしで個別に通信する、完全に分散化されたMARLフレームワークである。エージェントのポリシネットワークのアクティベーションを最後に隠されたレイヤにクラスタリングするMini-Batch-K-Meansは、それらを個別のメッセージに変換する。
論文参考訳（メタデータ） (2024-01-07T14:53:43Z)
Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。 CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文参考訳（メタデータ） (2023-12-25T03:33:08Z)
Multi-Agent Reinforcement Learning Based on Representational Communication for Large-Scale Traffic Signal Control [13.844458247041711]
交通信号制御(TSC)は、インテリジェント交通システムにおいて難しい問題である。大規模TSCのための通信ベースのMARLフレームワークを提案する。私たちのフレームワークでは、各エージェントがメッセージのどの部分を誰に"送信"するかを指示する通信ポリシーを学習することができます。
論文参考訳（メタデータ） (2023-10-03T21:06:51Z)
Building Cooperative Embodied Agents Modularly with Large Language Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文参考訳（メタデータ） (2023-07-05T17:59:27Z)
Efficient Communication via Self-supervised Information Aggregation for Online and Offline Multi-agent Reinforcement Learning [12.334522644561591]
MARL(Multi-Agent Reinforcement Learning)の協調学習において,効率的なメッセージアグリゲーションは協調に不可欠である,と我々は主張する。本稿では, エージェントが受信したメッセージをコンパクトな表現に集約し, ローカルポリシーの強化に高い関連性を持たせることができる, 自己教師型情報集約(MASIA)によるマルチエージェント通信を提案する。私たちはマルチエージェント通信のためのオフラインベンチマークを構築しています。
論文参考訳（メタデータ） (2023-02-19T16:02:16Z)
Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入 MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文参考訳（メタデータ） (2022-10-12T14:58:32Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
Coordinating Policies Among Multiple Agents via an Intelligent Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文参考訳（メタデータ） (2022-05-21T14:11:33Z)
Communication Efficient Distributed Learning with Censored, Quantized, and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。 CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文参考訳（メタデータ） (2020-09-14T14:18:19Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。