論文の概要: Efficient Reinforcement Learning for Zero-Shot Coordination in Evolving Games
- arxiv url: http://arxiv.org/abs/2511.11083v3
- Date: Tue, 18 Nov 2025 10:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.674549
- Title: Efficient Reinforcement Learning for Zero-Shot Coordination in Evolving Games
- Title(参考訳): 進化ゲームにおけるゼロショットコーディネートのための効率的な強化学習
- Authors: Bingyu Hui, Lebin Yu, Quanming Yao, Yunpeng Qu, Xudong Zhang, Jian Wang,
- Abstract要約: ゼロショット調整はマルチエージェントゲーム理論における鍵となる課題である。
人口ベーストレーニングは、ゼロショット調整性能が良いことが証明されている。
- 参考スコア(独自算出の注目度): 30.01934395713042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot coordination(ZSC), a key challenge in multi-agent game theory, has become a hot topic in reinforcement learning (RL) research recently, especially in complex evolving games. It focuses on the generalization ability of agents, requiring them to coordinate well with collaborators from a diverse, potentially evolving, pool of partners that are not seen before without any fine-tuning. Population-based training, which approximates such an evolving partner pool, has been proven to provide good zero-shot coordination performance; nevertheless, existing methods are limited by computational resources, mainly focusing on optimizing diversity in small populations while neglecting the potential performance gains from scaling population size. To address this issue, this paper proposes the Scalable Population Training (ScaPT), an efficient RL training framework comprising two key components: a meta-agent that efficiently realizes a population by selectively sharing parameters across agents, and a mutual information regularizer that guarantees population diversity. To empirically validate the effectiveness of ScaPT, this paper evaluates it along with representational frameworks in Hanabi cooperative game and confirms its superiority.
- Abstract(参考訳): マルチエージェントゲーム理論における重要な課題であるゼロショットコーディネート(ZSC)は、近年、強化学習(RL)研究、特に複雑な進化ゲームにおいてホットな話題となっている。
エージェントの一般化能力に焦点をあて、様々な、潜在的に進化する可能性のあるパートナーのプールから協力者とうまく協調することを要求する。
それにもかかわらず、既存の手法は計算資源によって制限されており、主に小集団の多様性を最適化し、人口規模の拡大による潜在的なパフォーマンス向上を無視することに焦点を当てている。
本稿では, エージェント間でパラメータを選択的に共有することで, 集団を効率的に実現するメタエージェントと, 集団の多様性を保証する相互情報レギュレータの2つの主要な構成要素からなる, 効率的なRLトレーニングフレームワークである, スケーラブル人口訓練(ScaPT)を提案する。
本稿では,ScaPTの有効性を実証的に検証するため,ハナビ協調ゲームにおける表現的枠組みとともに評価し,その優位性を確認する。
関連論文リスト
- C2AL: Cohort-Contrastive Auxiliary Learning for Large-scale Recommendation Systems [7.548682352355034]
共有埋め込み選択のための因子化機械において,注意機構が重要な役割を担っていることを示す。
本稿では、データセットのサブ構造を分析し、補助学習を通して強力な分布コントラストを持つ構造を明らかにすることで、この問題に対処することを提案する。
このアプローチは、注目層の学習プロセスをカスタマイズし、少数派コホートとの相互情報を保護し、グローバルなパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-10-02T17:00:17Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - Enhancing Worker Recruitment in Collaborative Mobile Crowdsourcing: A Graph Neural Network Trust Evaluation Approach [7.883218966932225]
CMCS(Collaborative Mobile Crowdsourcing)は、複雑なセンシングタスクを協調的に実行するワーカーチームを募集するプラットフォームである。
本稿では,ソーシャルネットワークにおける全作業者の非対称信頼度を求めるために,信頼強化評価フレームワーク(TREF)を提案する。
論文 参考訳(メタデータ) (2023-06-07T11:59:45Z) - Reweighted Mixup for Subpopulation Shift [63.1315456651771]
サブポピュレーションシフトは、多くの実世界のアプリケーションに存在し、同じサブポピュレーショングループを含むが異なるサブポピュレーション比率を持つトレーニングとテストの分布を指す。
重要度再重み付けは、サブポピュレーションシフトを処理する古典的で効果的な方法である。
我々は、オーバーフィッティング問題を緩和するために、reweighted mixupと呼ばれるシンプルで実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T03:44:50Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - GENIUS: A Novel Solution for Subteam Replacement with Clustering-based
Graph Neural Network [34.510076775330795]
サブチーム置換は、メンバーの非利用可能なサブセットとして最も機能できる人々の最適な候補セットを見つけるために定義される。
本稿では,新しいクラスタリングベースのグラフニューラルネットワーク(GNN)フレームワークであるGENIUSを提案する。
論文 参考訳(メタデータ) (2022-11-08T09:02:59Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - Evaluating Generalization and Transfer Capacity of Multi-Agent
Reinforcement Learning Across Variable Number of Agents [0.0]
マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。
中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。
分散実行パラダイムを用いた集中型トレーニングを採用し, エージェント数に応じて, 学習モデルの一般化と伝達能力について検討する。
論文 参考訳(メタデータ) (2021-11-28T15:29:46Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。