論文の概要: CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data
- arxiv url: http://arxiv.org/abs/2409.16202v2
- Date: Wed, 25 Sep 2024 03:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 09:03:58.509835
- Title: CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data
- Title(参考訳): CJEval:中国中学校のエクストリームデータを用いた大規模言語モデル評価ベンチマーク
- Authors: Qian-Wen Zhang, Haochen Wang, Fang Li, Siyu An, Lingfeng Qiao, Liangcai Gao, Di Yin, Xing Sun,
- Abstract要約: CJEvalは中国の中学校のエクサム評価に基づくベンチマークである。
26,136個のサンプルから成っている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,その性能を総合的に分析した。
- 参考スコア(独自算出の注目度): 31.324617466692754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online education platforms have significantly transformed the dissemination of educational resources by providing a dynamic and digital infrastructure. With the further enhancement of this transformation, the advent of Large Language Models (LLMs) has elevated the intelligence levels of these platforms. However, current academic benchmarks provide limited guidance for real-world industry scenarios. This limitation arises because educational applications require more than mere test question responses. To bridge this gap, we introduce CJEval, a benchmark based on Chinese Junior High School Exam Evaluations. CJEval consists of 26,136 samples across four application-level educational tasks covering ten subjects. These samples include not only questions and answers but also detailed annotations such as question types, difficulty levels, knowledge concepts, and answer explanations. By utilizing this benchmark, we assessed LLMs' potential applications and conducted a comprehensive analysis of their performance by fine-tuning on various educational tasks. Extensive experiments and discussions have highlighted the opportunities and challenges of applying LLMs in the field of education.
- Abstract(参考訳): オンライン教育プラットフォームは、動的かつデジタルなインフラを提供することによって、教育資源の普及を大きく変えた。
この変換のさらなる強化により、Large Language Models(LLM)の出現により、これらのプラットフォームのインテリジェンスレベルが向上した。
しかし、現在の学術ベンチマークでは、現実世界の業界シナリオについて限定的なガイダンスを提供している。
この制限は、教育アプリケーションは単なるテスト質問応答以上のものを必要とするため生じる。
このギャップを埋めるために,中国中学試験評価に基づくベンチマークであるCJEvalを紹介した。
CJEvalは、アプリケーションレベルの4つの課題を対象とする26,136のサンプルで構成されている。
これらのサンプルには、質問や回答だけでなく、質問タイプ、難易度、知識概念、回答の説明といった詳細なアノテーションも含まれている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,様々な教育課題を微調整してその性能を総合的に分析した。
大規模な実験と議論は、LLMを教育分野に適用する機会と課題を浮き彫りにした。
関連論文リスト
- Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - Exploring the Capabilities of Prompted Large Language Models in Educational and Assessment Applications [0.4857223913212445]
生成人工知能(AI)の時代、大規模言語モデル(LLM)の融合は、近代教育の分野で革新の先例のない機会を提供する。
学校レベルの教科書からオープンエンド質問を生成するためのプロンプトベースの手法の有効性について検討し,学部レベルの技術教科書からオープンエンド質問を生成する際の効率を評価し,言語に依存しない多段階質問(MCQ)生成のためのチェーン・オブ・インスパイアされたマルチステージ・プロンプト・アプローチの適用可能性について検討した。
論文 参考訳(メタデータ) (2024-05-19T15:13:51Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges [60.62904929065257]
大規模言語モデル(LLM)は、個々の要求を解釈することでこの問題を解決する可能性を提供する。
本稿では, 数学, 文章, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観する。
論文 参考訳(メタデータ) (2023-12-27T14:37:32Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Educational Question Mining At Scale: Prediction, Analysis and
Personalization [35.42197158180065]
大規模に教育的な問題から洞察を抽出する枠組みを提案する。
我々は最先端のベイズ深層学習法、特に部分変分オートエンコーダ(p-VAE)を利用する。
提案したフレームワークを,数万の質問と数千万の回答をオンライン教育プラットフォームから収集した実世界のデータセットに適用する。
論文 参考訳(メタデータ) (2020-03-12T19:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。