論文の概要: Quantifying Zero-shot Coordination Capability with Behavior Preferring
Partners
- arxiv url: http://arxiv.org/abs/2310.05208v1
- Date: Sun, 8 Oct 2023 15:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:24:10.317282
- Title: Quantifying Zero-shot Coordination Capability with Behavior Preferring
Partners
- Title(参考訳): 行動優先パートナーによるゼロショットコーディネート能力の定量化
- Authors: Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen,
Ying Wen, Weinan Zhang
- Abstract要約: ゼロショットコーディネーション(ZSC)は、学習したコーディネーションスキルを未確認のパートナーに一般化することに焦点を当てた新しい課題である。
既存の方法は、事前に訓練されたまたは進化した集団からパートナーとエゴエージェントを訓練する。
本研究の目的は,ZSC能力の信頼性,包括的,効率的な評価手法を作ることである。
- 参考スコア(独自算出の注目度): 27.584706898274128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot coordination (ZSC) is a new challenge focusing on generalizing
learned coordination skills to unseen partners. Existing methods train the ego
agent with partners from pre-trained or evolving populations. The agent's ZSC
capability is typically evaluated with a few evaluation partners, including
human and agent, and reported by mean returns. Current evaluation methods for
ZSC capability still need to improve in constructing diverse evaluation
partners and comprehensively measuring the ZSC capability. We aim to create a
reliable, comprehensive, and efficient evaluation method for ZSC capability. We
formally define the ideal 'diversity-complete' evaluation partners and propose
the best response (BR) diversity, which is the population diversity of the BRs
to the partners, to approximate the ideal evaluation partners. We propose an
evaluation workflow including 'diversity-complete' evaluation partners
construction and a multi-dimensional metric, the Best Response Proximity
(BR-Prox) metric. BR-Prox quantifies the ZSC capability as the performance
similarity to each evaluation partner's approximate best response,
demonstrating generalization capability and improvement potential. We
re-evaluate strong ZSC methods in the Overcooked environment using the proposed
evaluation workflow. Surprisingly, the results in some of the most used layouts
fail to distinguish the performance of different ZSC methods. Moreover, the
evaluated ZSC methods must produce more diverse and high-performing training
partners. Our proposed evaluation workflow calls for a change in how we
efficiently evaluate ZSC methods as a supplement to human evaluation.
- Abstract(参考訳): ゼロショットコーディネーション(ZSC)は、学習したコーディネーションスキルを未確認のパートナーに一般化することに焦点を当てた新しい課題である。
既存の方法は、事前に訓練されたまたは進化した集団からパートナーとエゴエージェントを訓練する。
エージェントのZSC能力は通常、人間やエージェントを含むいくつかの評価パートナーで評価され、平均的なリターンによって報告される。
現在のZSC能力評価手法は, 多様な評価パートナーの構築や, ZSC能力の包括的評価において改善が必要である。
我々は,zsc能力の信頼性,包括的,効率的な評価手法の構築を目指している。
我々は, 理想的な「多様性完全」評価パートナーを定式化し, 最適評価パートナーを近似するために, brsの個体群多様性である最良応答(br)多様性を提案する。
本稿では,「多様性完備」評価パートナーの構築と多次元計量,BR-Prox(Best Response Proximity)メトリックを含む評価ワークフローを提案する。
BR-Proxは、各評価パートナーの近似ベストレスポンスに類似した性能としてZSC機能を定量化し、一般化能力と改善可能性を示す。
提案する評価ワークフローを用いて,過剰調理環境における強zsc法の再評価を行った。
驚いたことに、最もよく使われるレイアウトのいくつかは、異なるZSCメソッドのパフォーマンスを区別することができない。
さらに、評価されたZSC手法は、より多種多様で高性能なトレーニングパートナーを生成する必要がある。
提案する評価ワークフローでは,ZSC法を人的評価の補助として効率的に評価する方法が求められている。
関連論文リスト
- Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - CoAScore: Chain-of-Aspects Prompting for NLG Evaluation [15.040372431669093]
自然言語生成(NLG)の評価は、シングルアスペクトからマルチアスペクトパラダイムに移行した。
我々は,大規模言語モデル(LLM)を利用したCoAScoreと呼ばれるNLG評価指標を提案する。
実験結果から,個人的側面評価と比較して,CoAScoreは人的判断と高い相関性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-16T06:57:20Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。