Fugu-MT 論文翻訳(概要): Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling

論文の概要: Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling

arxiv url: http://arxiv.org/abs/2603.03759v1
Date: Wed, 04 Mar 2026 06:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.195867
Title: Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling
Title（参考訳）: 平均フィールドサブサンプリングによる協調的マルチエージェント強化学習における近似ナッシュ平衡の学習
Authors: Emile Anand, Ishani Karmarkar,
Abstract要約: コミュニケーション制約付きシステムにおいて,グローバルエージェントと$n$同質なローカルエージェントによる協調マルコフゲームについて検討する。これらの近似的最適応答ダイナミクスは、$widetildeO (1/sqrtk)$-approximate Nash Equilibriumに収束することを示す。
参考スコア（独自算出の注目度）: 3.396870608435494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many large-scale platforms and networked control systems have a centralized decision maker interacting with a massive population of agents under strict observability constraints. Motivated by such applications, we study a cooperative Markov game with a global agent and $n$ homogeneous local agents in a communication-constrained regime, where the global agent only observes a subset of $k$ local agent states per time step. We propose an alternating learning framework $(\texttt{ALTERNATING-MARL})$, where the global agent performs subsampled mean-field $Q$-learning against a fixed local policy, and local agents update by optimizing in an induced MDP. We prove that these approximate best-response dynamics converge to an $\widetilde{O}(1/\sqrt{k})$-approximate Nash Equilibrium, while yielding a separation in the sample complexities between the joint state space and action space. Finally, we validate our results in numerical simulations for multi-robot control and federated optimization.
Abstract（参考訳）: 多くの大規模プラットフォームとネットワーク制御システムは、厳密な可観測性制約の下で大量のエージェントと相互作用する中央集権的な意思決定者を持っている。このような応用に触発されて,グローバルエージェントと$n$同質なローカルエージェントによる協調マルコフゲームの研究を行い,グローバルエージェントは時間ステップあたり$k$ローカルエージェント状態のサブセットのみを観測する。そこでは,グローバルエージェントが固定されたローカルポリシーに対して,サブサンプリングされた平均フィールド$Q$ラーニングを実行し,ローカルエージェントが誘導MDPを最適化して更新する,交互学習フレームワーク$(\textt{ALTERNating-MARL})$を提案する。これらの近似的最適応答ダイナミクスが$\widetilde{O}(1/\sqrt{k})$-approximate Nash Equilibrium に収束し、結合状態空間と作用空間の間のサンプル複素度を分離することを証明する。最後に,マルチロボット制御とフェデレーション最適化のための数値シミュレーションにおいて,実験結果を検証した。

関連論文リスト

Graphon Mean-Field Subsampling for Cooperative Heterogeneous Multi-Agent Reinforcement Learning [19.98996237281175]
我々は、異種エージェントインタラクションを備えたスケーラブルな協調MARLのための、$texttGMFS$, a $textbfG$raphon $textbfM$ean-$textbfF$ield $textbfS$ubsamplingフレームワークを紹介した。相互作用強度に応じて$$エージェントをサブサンプリングすることにより、グラノン重み付き平均場を近似し、サンプルの複雑さでポリシーを学ぶ。我々はロボット協調における数値シミュレーションによる理論の検証を行い、$textttGMFS$がほぼ最適性能を実現することを示す。
論文参考訳（メタデータ） (2026-02-18T05:34:07Z)
Achieving Equilibrium under Utility Heterogeneity: An Agent-Attention Framework for Multi-Agent Multi-Objective Reinforcement Learning [30.138706163658597]
本稿では,エージェント型マルチエージェント多目的強化学習(AA-MAMORL)フレームワークを提案する。我々のアプローチは、訓練中に、他のエージェントのユーティリティ機能と関連するポリシーに対する共同信条を暗黙的に学習する。実行中、各エージェントは、BNEを近似するために、ローカル観測とプライベートユーティリティ機能に基づいて、独立してアクションを選択する。
論文参考訳（メタデータ） (2025-11-12T03:06:21Z)
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-12-22T15:16:44Z)
Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [8.400105595501158]
我々は、新しい$textttSUBPLE-MFQ$(textbfSubsample$-$textbfMean-$textbfF$ield-$textbfQ$-learning)と、$n$エージェントを持つシステムの分散ランダム化ポリシーを提案する。我々は、この学習されたポリシーが$tilde$O (1/sqrtk)$の順序の最適ポリシーに収束することを証明する。
論文参考訳（メタデータ） (2024-12-01T03:45:17Z)
Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。 $mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。 $mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文参考訳（メタデータ） (2024-06-18T15:26:54Z)
Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning [24.567125948995834]
フェデレーション強化学習は、N$エージェントが協力してグローバルモデルを学ぶためのフレームワークである。この連立固定点問題の解法において, エージェントの綿密な協調によって, グローバルモデルのN$倍の高速化が期待できることを示す。
論文参考訳（メタデータ） (2022-06-21T08:39:12Z)
Convergence Rates of Average-Reward Multi-agent Reinforcement Learning via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文参考訳（メタデータ） (2021-10-22T03:48:41Z)
Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文参考訳（メタデータ） (2021-10-09T07:46:25Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Distributed Q-Learning with State Tracking for Multi-agent Networked Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文参考訳（メタデータ） (2020-12-22T22:03:49Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。