Fugu-MT 論文翻訳(概要): Quantifying Zero-shot Coordination Capability with Behavior Preferring Partners

論文の概要: Quantifying Zero-shot Coordination Capability with Behavior Preferring Partners

arxiv url: http://arxiv.org/abs/2310.05208v1
Date: Sun, 8 Oct 2023 15:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:24:10.317282
Title: Quantifying Zero-shot Coordination Capability with Behavior Preferring Partners
Title（参考訳）: 行動優先パートナーによるゼロショットコーディネート能力の定量化
Authors: Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen, Weinan Zhang
Abstract要約: ゼロショットコーディネーション(ZSC)は、学習したコーディネーションスキルを未確認のパートナーに一般化することに焦点を当てた新しい課題である。既存の方法は、事前に訓練されたまたは進化した集団からパートナーとエゴエージェントを訓練する。本研究の目的は,ZSC能力の信頼性,包括的,効率的な評価手法を作ることである。
参考スコア（独自算出の注目度）: 27.584706898274128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot coordination (ZSC) is a new challenge focusing on generalizing learned coordination skills to unseen partners. Existing methods train the ego agent with partners from pre-trained or evolving populations. The agent's ZSC capability is typically evaluated with a few evaluation partners, including human and agent, and reported by mean returns. Current evaluation methods for ZSC capability still need to improve in constructing diverse evaluation partners and comprehensively measuring the ZSC capability. We aim to create a reliable, comprehensive, and efficient evaluation method for ZSC capability. We formally define the ideal 'diversity-complete' evaluation partners and propose the best response (BR) diversity, which is the population diversity of the BRs to the partners, to approximate the ideal evaluation partners. We propose an evaluation workflow including 'diversity-complete' evaluation partners construction and a multi-dimensional metric, the Best Response Proximity (BR-Prox) metric. BR-Prox quantifies the ZSC capability as the performance similarity to each evaluation partner's approximate best response, demonstrating generalization capability and improvement potential. We re-evaluate strong ZSC methods in the Overcooked environment using the proposed evaluation workflow. Surprisingly, the results in some of the most used layouts fail to distinguish the performance of different ZSC methods. Moreover, the evaluated ZSC methods must produce more diverse and high-performing training partners. Our proposed evaluation workflow calls for a change in how we efficiently evaluate ZSC methods as a supplement to human evaluation.
Abstract（参考訳）: ゼロショットコーディネーション(ZSC)は、学習したコーディネーションスキルを未確認のパートナーに一般化することに焦点を当てた新しい課題である。既存の方法は、事前に訓練されたまたは進化した集団からパートナーとエゴエージェントを訓練する。エージェントのZSC能力は通常、人間やエージェントを含むいくつかの評価パートナーで評価され、平均的なリターンによって報告される。現在のZSC能力評価手法は, 多様な評価パートナーの構築や, ZSC能力の包括的評価において改善が必要である。我々は,zsc能力の信頼性,包括的,効率的な評価手法の構築を目指している。我々は, 理想的な「多様性完全」評価パートナーを定式化し, 最適評価パートナーを近似するために, brsの個体群多様性である最良応答(br)多様性を提案する。本稿では,「多様性完備」評価パートナーの構築と多次元計量,BR-Prox(Best Response Proximity)メトリックを含む評価ワークフローを提案する。 BR-Proxは、各評価パートナーの近似ベストレスポンスに類似した性能としてZSC機能を定量化し、一般化能力と改善可能性を示す。提案する評価ワークフローを用いて,過剰調理環境における強zsc法の再評価を行った。驚いたことに、最もよく使われるレイアウトのいくつかは、異なるZSCメソッドのパフォーマンスを区別することができない。さらに、評価されたZSC手法は、より多種多様で高性能なトレーニングパートナーを生成する必要がある。提案する評価ワークフローでは,ZSC法を人的評価の補助として効率的に評価する方法が求められている。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。世界中から約1200チームが参加した。トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文参考訳（メタデータ） (2024-06-13T12:58:00Z)
MetaCoCo: A New Few-Shot Classification Benchmark with Spurious Correlation [46.50551811108464]
実世界のシナリオから収集したスプリアス相関シフトを用いたベンチマークを提案する。また,CLIPを事前学習した視覚言語モデルとして用いたメトリクスを提案する。実験結果から,既存手法の性能はスプリアス相関シフトの有無で著しく低下することがわかった。
論文参考訳（メタデータ） (2024-04-30T15:45:30Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
SEAL: A Framework for Systematic Evaluation of Real-World Super-Resolution [42.60460455409881]
Real-world Super-Resolution (Real-SR)法は、様々な現実世界の画像を扱うことに焦点を当てている。現在、これらの手法は、少数の劣化事例に対して平均的な性能でのみ評価されている。実SRの体系的評価のためのフレームワークSEALを提案する。
論文参考訳（メタデータ） (2023-09-06T14:02:55Z)
Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文参考訳（メタデータ） (2023-08-20T14:44:50Z)
Uncertainty in GNN Learning Evaluations: The Importance of a Consistent Benchmark for Community Detection [4.358468367889626]
グラフニューラルネットワーク(GNN)の共通評価プロトコルを確立するためのフレームワークを提案する。プロトコルの有無の相違を実証することで、モチベーションと正当化を行います。また,同じ評価基準が従うことを保証することで,本課題における手法の性能と有意な差があることが判明した。
論文参考訳（メタデータ） (2023-05-10T10:22:28Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents [40.51184157538392]
本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2021-02-16T13:58:25Z)
Uncertainty-aware Score Distribution Learning for Action Quality Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文参考訳（メタデータ） (2020-06-13T15:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。