論文の概要: ZSC-Eval: An Evaluation Toolkit and Benchmark for Multi-agent Zero-shot Coordination
- arxiv url: http://arxiv.org/abs/2310.05208v2
- Date: Sat, 8 Jun 2024 10:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:07:26.428401
- Title: ZSC-Eval: An Evaluation Toolkit and Benchmark for Multi-agent Zero-shot Coordination
- Title(参考訳): ZSC-Eval:マルチエージェントゼロショットコーディネーションのための評価ツールキットとベンチマーク
- Authors: Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen, Weinan Zhang,
- Abstract要約: ZSCアルゴリズムの最初の評価ツールキットおよびベンチマークであるZSC-Evalを提案する。
ZSC-Evalは,(1)展開時パートナーの分布を近似した行動優先報酬による評価パートナー候補の生成,2)Best-Response Diversity(BR-Div)による評価パートナーの選択,3)Best-Response Proximity(BR-Prox)メトリックによる各種評価パートナーとの一般化性能の測定,からなる。
- 参考スコア(独自算出の注目度): 26.267503981559646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot coordination (ZSC) is a new cooperative multi-agent reinforcement learning (MARL) challenge that aims to train an ego agent to work with diverse, unseen partners during deployment. The significant difference between the deployment-time partners' distribution and the training partners' distribution determined by the training algorithm makes ZSC a unique out-of-distribution (OOD) generalization challenge. The potential distribution gap between evaluation and deployment-time partners leads to inadequate evaluation, which is exacerbated by the lack of appropriate evaluation metrics. In this paper, we present ZSC-Eval, the first evaluation toolkit and benchmark for ZSC algorithms. ZSC-Eval consists of: 1) Generation of evaluation partner candidates through behavior-preferring rewards to approximate deployment-time partners' distribution; 2) Selection of evaluation partners by Best-Response Diversity (BR-Div); 3) Measurement of generalization performance with various evaluation partners via the Best-Response Proximity (BR-Prox) metric. We use ZSC-Eval to benchmark ZSC algorithms in Overcooked and Google Research Football environments and get novel empirical findings. We also conduct a human experiment of current ZSC algorithms to verify the ZSC-Eval's consistency with human evaluation. ZSC-Eval is now available at https://github.com/sjtu-marl/ZSC-Eval.
- Abstract(参考訳): ゼロショットコーディネート(ZSC)は、エゴエージェントが展開中に、多様な、目に見えないパートナーと連携するように訓練することを目的とした、新しい協調型マルチエージェント強化学習(MARL)チャレンジである。
トレーニングアルゴリズムによって決定される、デプロイメント時パートナーの配布とトレーニングパートナの配布との大きな違いは、ZSCを独自のアウト・オブ・ディストリビューション(OOD)一般化の課題にしている。
評価とデプロイメントタイムのパートナ間の潜在的な分散ギャップは、適切な評価指標の欠如によって悪化する不適切な評価につながる。
本稿では,ZSCアルゴリズムの最初の評価ツールキットおよびベンチマークであるZSC-Evalを提案する。
ZSC-Eval は以下の通りである。
1【配置時パートナーの分布を近似する行動優先報酬による評価パートナー候補の生成】
2)Best-Response Diversity(BR-Div)による評価パートナーの選択
3)Best-Response Proximity(BR-Prox)測定により,各種評価パートナーを用いた一般化性能の測定を行った。
我々は、ZSC-Evalを用いて、オーバークッキングおよびGoogle Research Football環境でZSCアルゴリズムをベンチマークし、新しい経験的発見を得る。
また,人間の評価とZSC-Evalの整合性を検証するため,現行のZSCアルゴリズムの人間実験を行った。
ZSC-Evalは現在https://github.com/sjtu-marl/ZSC-Evalで利用可能である。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - MetaCoCo: A New Few-Shot Classification Benchmark with Spurious Correlation [46.50551811108464]
実世界のシナリオから収集したスプリアス相関シフトを用いたベンチマークを提案する。
また,CLIPを事前学習した視覚言語モデルとして用いたメトリクスを提案する。
実験結果から,既存手法の性能はスプリアス相関シフトの有無で著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-04-30T15:45:30Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - SEAL: A Framework for Systematic Evaluation of Real-World
Super-Resolution [42.60460455409881]
Real-world Super-Resolution (Real-SR)法は、様々な現実世界の画像を扱うことに焦点を当てている。
現在、これらの手法は、少数の劣化事例に対して平均的な性能でのみ評価されている。
実SRの体系的評価のためのフレームワークSEALを提案する。
論文 参考訳(メタデータ) (2023-09-06T14:02:55Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Uncertainty in GNN Learning Evaluations: The Importance of a Consistent
Benchmark for Community Detection [4.358468367889626]
グラフニューラルネットワーク(GNN)の共通評価プロトコルを確立するためのフレームワークを提案する。
プロトコルの有無の相違を実証することで、モチベーションと正当化を行います。
また,同じ評価基準が従うことを保証することで,本課題における手法の性能と有意な差があることが判明した。
論文 参考訳(メタデータ) (2023-05-10T10:22:28Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents [40.51184157538392]
本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。
本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-02-16T13:58:25Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。