論文の概要: Cooperative Multi-agent RL with Communication Constraints
- arxiv url: http://arxiv.org/abs/2601.12518v1
- Date: Sun, 18 Jan 2026 18:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.661027
- Title: Cooperative Multi-agent RL with Communication Constraints
- Title(参考訳): コミュニケーション制約を考慮した協調型マルチエージェントRL
- Authors: Nuoya Xiong, Aarti Singh,
- Abstract要約: 通信が限られている場合、エージェントはポリシーを更新するために時代遅れの情報を頼らなければならない。
欠落したデータを扱うための一般的なアプローチは、重要サンプリングと呼ばれ、ベースポリシーからの古いデータを振り返り、現在のポリシーの勾配を見積もる。
本稿では,政策の更新を予測し,一連の基本方針のサンプルを収集するために,古い勾配を用いた基本方針予測手法を提案する。
- 参考スコア(独自算出の注目度): 16.686955491488277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative MARL often assumes frequent access to global information in a data buffer, such as team rewards or other agents' actions, which is typically unrealistic in decentralized MARL systems due to high communication costs. When communication is limited, agents must rely on outdated information to estimate gradients and update their policies. A common approach to handle missing data is called importance sampling, in which we reweigh old data from a base policy to estimate gradients for the current policy. However, it quickly becomes unstable when the communication is limited (i.e. missing data probability is high), so that the base policy in importance sampling is outdated. To address this issue, we propose a technique called base policy prediction, which utilizes old gradients to predict the policy update and collect samples for a sequence of base policies, which reduces the gap between the base policy and the current policy. This approach enables effective learning with significantly fewer communication rounds, since the samples of predicted base policies could be collected within one communication round. Theoretically, we show that our algorithm converges to an $\varepsilon$-Nash equilibrium in potential games with only $O(\varepsilon^{-3/4})$ communication rounds and $O(poly(\max_i |A_i|)\varepsilon^{-11/4})$ samples, improving existing state-of-the-art results in communication cost, as well as sample complexity without the exponential dependence on the joint action space size. We also extend these results to general Markov Cooperative Games to find an agent-wise local maximum. Empirically, we test the base policy prediction algorithm in both simulated games and MAPPO for complex environments.
- Abstract(参考訳): 協調的なMARLはしばしば、チーム報酬や他のエージェントのアクションのようなデータバッファ内のグローバル情報への頻繁なアクセスを前提としており、これは通常、通信コストが高いために分散化されたMARLシステムでは非現実的である。
コミュニケーションが限られている場合、エージェントは勾配を見積り、ポリシーを更新するために時代遅れの情報を頼らなければならない。
欠落したデータを扱うための一般的なアプローチは、重要サンプリングと呼ばれ、ベースポリシーからの古いデータを振り返り、現在のポリシーの勾配を見積もる。
しかし、通信が制限された場合(すなわち、データ確率の欠如が高い)にすぐに不安定になり、重要サンプリングにおける基本方針が時代遅れになる。
この問題に対処するため,基本方針と現在の政策のギャップを小さくする手法として,古い勾配を利用して政策更新を予測し,基本方針の一連のサンプルを収集する手法を提案する。
このアプローチは,予測ベースポリシーのサンプルを1回の通信ラウンド内で収集できるため,コミュニケーションラウンドを著しく少なくして効果的な学習を可能にする。
理論的には、我々のアルゴリズムは、$O(\varepsilon^{-3/4})$通信ラウンドと$O(poly(\max_i |A_i|)\varepsilon^{-11/4})$サンプルしか持たない潜在的なゲームにおける$\varepsilon$-Nash平衡に収束し、既存の通信コストの改善と、ジョイントアクション空間サイズへの指数関数的依存のないサンプル複雑さを示す。
また,これらの結果をMarkov Cooperative Gamesに拡張し,エージェントワイド局所最大値を求める。
シミュレーションゲームとMAPPOの両方において,複雑な環境における基本ポリシー予測アルゴリズムを実証的に検証した。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL [6.224756774400233]
本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
論文 参考訳(メタデータ) (2025-06-26T00:22:39Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [8.400105595501158]
我々は、新しい$textttSUBPLE-MFQ$(textbfSubsample$-$textbfMean-$textbfF$ield-$textbfQ$-learning)と、$n$エージェントを持つシステムの分散ランダム化ポリシーを提案する。
我々は、この学習されたポリシーが$tilde$O (1/sqrtk)$の順序の最適ポリシーに収束することを証明する。
論文 参考訳(メタデータ) (2024-12-01T03:45:17Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。