論文の概要: GameEval: Evaluating LLMs on Conversational Games
- arxiv url: http://arxiv.org/abs/2308.10032v1
- Date: Sat, 19 Aug 2023 14:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:17:33.564593
- Title: GameEval: Evaluating LLMs on Conversational Games
- Title(参考訳): GameEval: 会話ゲームにおけるLLMの評価
- Authors: Dan Qiao, Chenfei Wu, Yaobo Liang, Juntao Li, Nan Duan
- Abstract要約: 大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
- 参考スコア(独自算出の注目度): 93.40433639746331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in large language models (LLMs) have presented
challenges in evaluating those models. Existing evaluation methods are either
reference-based or preference based, which inevitably need human intervention
or introduce test bias caused by evaluator models. In this paper, we propose
GameEval, a novel approach to evaluating LLMs through goal-driven
conversational games, overcoming the limitations of previous methods. GameEval
treats LLMs as game players and assigns them distinct roles with specific goals
achieved by launching conversations of various forms, including discussion,
question answering, and voting. We design three unique games with cooperative
or adversarial objectives, accompanied by corresponding evaluation metrics, to
show how this new paradigm comprehensively evaluates model performance.Through
extensive experiments, we show that GameEval can effectively differentiate the
capabilities of various LLMs, providing a comprehensive assessment of their
integrated abilities to solve complex problems. Our public anonymous code is
available at https://github.com/GameEval/GameEval.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、これらのモデルを評価する上での課題を提示している。
既存の評価方法は参照ベースまたは好みベースであり、必然的に人間の介入を必要とするか、評価モデルによって引き起こされるテストバイアスを導入する。
本稿では,従来の手法の限界を克服し,ゴール駆動型会話ゲームによるLLMの評価手法であるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、議論、質問応答、投票など様々な形式の会話をローンチすることで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,この新手法がいかにモデル性能を包括的に評価するかを示すために,協調的あるいは敵対的な目的を持った3つのユニークなゲームを設計し,複雑な問題を解決するための統合能力の包括的評価を提供することにより,様々なllmの能力を効果的に区別できることを示す。
我々の匿名コードはhttps://github.com/GameEval/GameEval.comで入手可能です。
関連論文リスト
- TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.06415588947462]
我々は,ゲームタイプの包括的カバレッジ,新しいシナリオ,柔軟な組織に関するベンチマークであるTMGBenchを提案する。
具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。
トピックガイダンスやヒューマンインスペクションを通じて、多種多様な高品質なシナリオを作成するために、合成データ生成も採用しています。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。
このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。
実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文 参考訳(メタデータ) (2024-10-09T10:09:11Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Evaluating Language Model Agency through Negotiations [39.87262815823634]
ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。
提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。
論文 参考訳(メタデータ) (2024-01-09T13:19:37Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。