論文の概要: Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models
- arxiv url: http://arxiv.org/abs/2409.12739v3
- Date: Fri, 21 Mar 2025 14:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:53:49.714119
- Title: Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models
- Title(参考訳): Edu-Values:大規模言語モデルの中国語教育価値の評価に向けて
- Authors: Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Prayag Tiwari, Jing Qin,
- Abstract要約: Edu-Valuesは7つのコア値を含む最初の中国の教育価値評価ベンチマークである。
Edu-Valuesには、専門哲学、教師の専門的倫理、教育法と規則、文化リテラシー、教育知識と技能、基礎的能力、主題的知識が含まれる。
- 参考スコア(独自算出の注目度): 13.790068801864855
- License:
- Abstract: In this paper, we present Edu-Values, the first Chinese education values evaluation benchmark that includes seven core values: professional philosophy, teachers' professional ethics, education laws and regulations, cultural literacy, educational knowledge and skills, basic competencies and subject knowledge. We meticulously design 1,418 questions, covering multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and Chinese traditional culture (short answer) questions. We conduct human feedback based automatic evaluation over 21 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs often struggle with teachers' professional ethics and professional philosophy; (3) leveraging Edu-Values to build an external knowledge repository for RAG significantly improves LLMs' alignment. This demonstrates the effectiveness of the proposed benchmark.
- Abstract(参考訳): 本稿では,専門哲学,教員の専門的倫理,教育法と規則,文化リテラシー,教育知識と技能,基礎的能力と教科知識の7つのコアバリューを含む,中国初の教育価値評価ベンチマークであるEdu-Valuesを紹介する。
我々は、1,418の質問を慎重に設計し、複数選択、多モーダルな質問応答、主観的分析、敵対的プロンプト、中国の伝統文化(短解)質問を網羅した。
1)教育文化の違いにより、中国語のLLMは英語のLLMよりも優れており、Qwen 2は81.37のスコアで第1位、(2)LLMは教師の専門的倫理と専門的哲学に苦しむことが多い、(3)Edu-Valuesを活用してRAGの外部知識リポジトリを構築することで、LLMのアライメントが大幅に向上する、という3つの主な結果が浮かび上がっている。
これは提案したベンチマークの有効性を示す。
関連論文リスト
- Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring [8.71931996488953]
大規模言語モデルは、教師のためのエッセイ・スコーリング作業を容易にする潜在的なソリューションを提供する。
大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。
我々は,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価した。
論文 参考訳(メタデータ) (2024-11-25T12:33:14Z) - Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。
関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。
以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T15:36:30Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for
Large Language Models [44.74622336775077]
我々は,中国のK-12教育分野を対象とした総合的な評価ベンチマークであるE-EVALを紹介する。
E-EVALは、中国語、英語、政治学、歴史、倫理学、物理学、化学、数学、地理学など幅広い分野の小学校、中学校、高校の4,351問からなる。
GPT 4.0よりも多くのスコアが高いが、ほとんどのモデルは数学のような複雑な科目では性能が劣っている。
論文 参考訳(メタデータ) (2024-01-29T07:34:37Z) - ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large
Language Models [17.562961249150295]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。
ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。
ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文 参考訳(メタデータ) (2023-08-28T06:56:44Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。