論文の概要: Evaluating the Performance of Large Language Models on GAOKAO Benchmark
- arxiv url: http://arxiv.org/abs/2305.12474v3
- Date: Sat, 24 Feb 2024 15:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:37:19.343870
- Title: Evaluating the Performance of Large Language Models on GAOKAO Benchmark
- Title(参考訳): gaokaoベンチマークによる大規模言語モデルの性能評価
- Authors: Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng
Qiu
- Abstract要約: 本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
- 参考スコア(独自算出の注目度): 53.663757126289795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models(LLMs) have demonstrated remarkable performance across
various natural language processing tasks; however, how to comprehensively and
accurately assess their performance becomes an urgent issue to be addressed.
This paper introduces GAOKAO-Bench, an intuitive benchmark that employs
questions from the Chinese GAOKAO examination as test samples, including both
subjective and objective questions. To align with human examination methods, we
design a method based on zero-shot settings to evaluate the performance of
LLMs. With human evaluation, we obtain the converted total score of LLMs,
including GPT-4, ChatGPT and ERNIE-Bot.Our findings reveal that LLMs have
achieved competitive scores in Chinese GAOKAO examination, while they exhibit
significant performance disparities across various subjects. We also use LLMs
to grade the subjective questions, and find that model scores achieve a
moderate level of consistency with human scores. In conclusion, this research
contributes a robust evaluation benchmark for future large language models and
offers valuable insights into the advantages and limitations of such models.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて顕著な性能を示しているが、その性能を包括的かつ正確に評価する方法は、対処すべき緊急問題となっている。
本稿では,中国のガオカオ検定からの質問を主観的および客観的な質問を含むテストサンプルとして用いた直感的なベンチマークであるガオカオベンチを紹介する。
人間の検査手法に適合するため,ゼロショット設定に基づく手法を設計,llmの性能評価を行う。
評価の結果,gpt-4,chatgpt,ernie-botを含むllmの総スコアが変換され,各被験者間で有意なパフォーマンス差が認められた。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
結論として,本研究では,将来の大規模言語モデルに対する堅牢な評価ベンチマークを提供し,そのようなモデルの利点と限界について貴重な知見を提供する。
関連論文リスト
- F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。