論文の概要: Evaluating the Performance of Large Language Models on GAOKAO Benchmark
- arxiv url: http://arxiv.org/abs/2305.12474v1
- Date: Sun, 21 May 2023 14:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:13:54.145705
- Title: Evaluating the Performance of Large Language Models on GAOKAO Benchmark
- Title(参考訳): gaokaoベンチマークによる大規模言語モデルの性能評価
- Authors: Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng
Qiu
- Abstract要約: 本稿では,中国ガオカオ検定の質問を大規模言語モデル評価のためのテストサンプルとして用いた直感的なベンチマークであるガオカオベンチマーク(ガオカオベンチ)を紹介する。
評価結果をできるだけ人間に合わせるために,ゼロショットプロンプトに基づく手法を設計し,モデルの精度とスコアリング率を分析した。
- 参考スコア(独自算出の注目度): 39.80469545659934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated remarkable performance across various
natural language processing tasks; however, their efficacy in more challenging
and domain-specific tasks remains less explored. This paper introduces the
GAOKAO-Benchmark (GAOKAO-Bench), an intuitive benchmark that employs questions
from the Chinese Gaokao examination as test samples for evaluating large
language models.In order to align the evaluation results with humans as much as
possible, we designed a method based on zero-shot prompts to analyze the
accuracy and scoring rate of the model by dividing the questions into
subjective and objective types. We evaluated the ChatGPT model on
GAOKAO-Benchmark performance.Our findings reveal that the ChatGPT model excels
in tackling objective questions, while also shedding light on its shortcomings
and areas for improvement. To further scrutinize the model's responses, we
incorporate human evaluations.In conclusion, this research contributes a robust
evaluation benchmark for future large-scale language models and offers valuable
insights into the limitations of such models.
- Abstract(参考訳): 大規模言語モデルは、様々な自然言語処理タスクにおいて顕著な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果は、いまだに探究されていない。
本稿では,中国ガオカオ検定の質問を大規模言語モデル評価の指標として用いた直感的なベンチマークであるガオカオベンチマーク(GAokaO-Bench)を紹介し,その評価結果を人間と可能な限り整合させるため,質問を主観型と客観的型に分割することで,ゼロショットプロンプトに基づくモデル精度と評価率の分析手法を考案した。
ガオカオベンチマークにおけるChatGPTモデルの評価を行った結果,ChatGPTモデルは客観的な問題に対処する上で優れており,欠点や改善の領域にも光を当てていることがわかった。
本研究は,今後の大規模言語モデルに対するロバストな評価ベンチマークに貢献し,そのようなモデルの限界について貴重な知見を提供する。
関連論文リスト
- Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction [14.822205658480813]
大規模言語モデル(LLM)は、いくつかのタスクにおいて既存の自動評価指標より優れていることが報告されている。
本研究では, 文法的誤り訂正(GEC)評価におけるLLMの性能について, 従来の研究から着想を得たプロンプトを用いて検討した。
論文 参考訳(メタデータ) (2024-03-26T09:43:15Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。