Fugu-MT 論文翻訳(概要): SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning

論文の概要: SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.04833v1
Date: Thu, 05 Mar 2026 05:33:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.089229
Title: SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning
Title（参考訳）: SCoUT:マルチエージェント強化学習におけるユーティリティガイド付き時間グループによるスケーラブルなコミュニケーション
Authors: Manav Vora, Gokul Puthumanaillam, Hiroyasu Tsukamoto, Melkior Ornik,
Abstract要約: 部分観察型マルチエージェント強化学習(MARL)におけるコミュニケーションによるコーディネーションの改善 textbfScalable textbfCommunication via textbfUtility-guided textbfTemporal grouping) エージェントは環境行動、決定の送付、受取者選択という3つの方針で訓練される。
参考スコア（独自算出の注目度）: 2.064923532131528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Communication can improve coordination in partially observed multi-agent reinforcement learning (MARL), but learning \emph{when} and \emph{who} to communicate with requires choosing among many possible sender-recipient pairs, and the effect of any single message on future reward is hard to isolate. We introduce \textbf{SCoUT} (\textbf{S}calable \textbf{Co}mmunication via \textbf{U}tility-guided \textbf{T}emporal grouping), which addresses both these challenges via temporal and agent abstraction within traditional MARL. During training, SCoUT resamples \textit{soft} agent groups every $K$ environment steps (macro-steps) via Gumbel-Softmax; these groups are latent clusters that induce an affinity used as a differentiable prior over recipients. Using the same assignments, a group-aware critic predicts values for each agent group and maps them to per-agent baselines through the same soft assignments, reducing critic complexity and variance. Each agent is trained with a three-headed policy: environment action, send decision, and recipient selection. To obtain precise communication learning signals, we derive counterfactual communication advantages by analytically removing each sender's contribution from the recipient's aggregated messages. This counterfactual computation enables precise credit assignment for both send and recipient-selection decisions. At execution time, all centralized training components are discarded and only the per-agent policy is run, preserving decentralized execution. Project website, videos and code: \hyperlink{https://scout-comm.github.io/}{https://scout-comm.github.io/}
Abstract（参考訳）: コミュニケーションは、部分的に観察されたマルチエージェント強化学習(MARL)におけるコーディネーションを改善することができるが、通信するためには、送信側と受信側の両方のペアを選択する必要がある。我々は、従来のMARL内の時間的およびエージェント的抽象化を通じて、これらの課題に対処する、 \textbf{SCoUT} (\textbf{S}calable \textbf{Co}mmunication via \textbf{U}tility-guided \textbf{T}emporal grouping)を紹介した。訓練中、SCoUT resamples \textit{soft} agent group every $K$ environment steps (macro-steps) through Gumbel-Softmax; これらの群は、受信者に対して微分可能な先行する親和性を引き起こす潜在クラスターである。同じ代入を用いて、グループ認識批評家は各エージェントグループの値を予測し、同じソフトな代入を通してエージェントごとのベースラインにマップし、批判の複雑さと分散を減少させる。各エージェントは、環境行動、決定の送達、受取者選択という3つの頭を持つポリシーで訓練される。正確な通信学習信号を得るために、受信者の集約メッセージから各送信者のコントリビューションを解析的に除去することで、対実的通信の利点を導出する。このカウンターファクト計算により、送信側と受信側の両方で正確なクレジット割り当てが可能になる。実行時に、すべての集中型トレーニングコンポーネントは破棄され、エージェントごとのポリシーのみが実行され、分散化された実行を保存する。プロジェクトウェブサイト、ビデオ、コード: \hyperlink{https://scout-comm.github.io/}{https://scout-comm.github.io/}

関連論文リスト

DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching [15.07152520738373]
我々は,各ラウンドでスパース指向の通信グラフを再構成するマネージャ誘導型マルチエージェントフレームワークであるDyTopoを紹介する。マネージャのラウンドゴールに基づいて、各エージェントは軽量な自然言語クエリ(need)とキー(offer)ディスクリプタを出力する。 DyTopoはこれらの記述子を組み込み、セマンティックマッチングを実行し、誘導されたエッジに沿ってのみプライベートメッセージをルーティングする。
論文参考訳（メタデータ） (2026-02-05T18:59:51Z)
FedMGP: Personalized Federated Learning with Multi-Group Text-Visual Prompts [31.907894865146385]
FedMGPは、視覚言語モデルにおけるパーソナライズされた即時学習のための新しいパラダイムである。多様性の喪失は、各プロンプトグループに異なる相補的な意味的側面を専門化させるために導入された。 FedMGPはパーソナライゼーションとドメインの一般化の両方において、先行したアプローチを一貫して上回っている。
論文参考訳（メタデータ） (2025-11-01T10:15:04Z)
Cooperative Pseudo Labeling for Unsupervised Federated Classification [62.9387841396335]
Unsupervised Federated Learning (UFL)は、データを共有したりラベル情報にアクセスしたりすることなく、分散クライアント間でグローバルモデルを協調的にトレーニングすることを目的としている。我々は、新しい方法、 underlinetextbfFederated underlinetextbfCooperative underlinetextbfPseudo underlinetextbfLabeling (textbfFedCoPL)を提案する。特に、一般的な画像特徴を含む視覚的プロンプトをサーバに集約し、パーソナライズされた知識をコードするテキストプロンプトをローカルに保持する。
論文参考訳（メタデータ） (2025-10-11T08:18:26Z)
AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文参考訳（メタデータ） (2025-06-21T18:34:43Z)
Cohort Squeeze: Beyond a Single Communication Round per Cohort in Cross-Device Federated Learning [51.560590617691005]
各コホートから「より多くのジュースを抽出できるかどうか」を単一の通信ラウンドでできることよりも検討する。本手法は,デバイス間通信におけるFLモデルのトレーニングに必要な通信コストを最大74%削減する。
論文参考訳（メタデータ） (2024-06-03T08:48:49Z)
Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文参考訳（メタデータ） (2024-05-09T17:40:09Z)
Federated Contextual Cascading Bandits with Asynchronous Communication and Heterogeneous Users [95.77678166036561]
繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。同期フレームワークで達成されたものと同等のサブ線形後悔境界を与えます。合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点から、我々のアルゴリズムの優れた性能を検証する。
論文参考訳（メタデータ） (2024-02-26T05:31:14Z)
Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。 CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文参考訳（メタデータ） (2023-12-25T03:33:08Z)
A Multi-Token Coordinate Descent Method for Semi-Decentralized Vertical Federated Learning [24.60603310894048]
コミュニケーション効率は学習における大きな課題である MTCD(Multi-Token Coordinate Descent)を提案する。 MTCDは、半分散垂直連邦設定のための調整可能な通信効率である。
論文参考訳（メタデータ） (2023-09-18T17:59:01Z)
RGMComm: Return Gap Minimization via Discrete Communications in Multi-Agent Reinforcement Learning [33.86277578441437]
マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。本稿では、離散メッセージ生成関数の驚くほど単純な設計であるReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大きく上回っている。
論文参考訳（メタデータ） (2023-08-07T07:26:55Z)
Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文参考訳（メタデータ） (2023-05-10T20:29:29Z)
A Simple and Provably Efficient Algorithm for Asynchronous Federated Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。 texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文参考訳（メタデータ） (2022-07-07T06:16:19Z)
Quasi-Equivalence Discovery for Zero-Shot Emergent Communication [63.175848843466845]
ゼロショットコーディネーション(ZSC)を実現するための新しい問題設定と準等価探索アルゴリズムを提案する。これらの2つの要因が参照ゲームにおいて一意に最適なZSCポリシーをもたらすことを示す。 QEDはこの設定における対称性を反復的に発見することができ、最適なZSCポリシーに収束する。
論文参考訳（メタデータ） (2021-03-14T23:42:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。