論文の概要: Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models
- arxiv url: http://arxiv.org/abs/2409.12739v1
- Date: Thu, 10 Oct 2024 06:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:34:43.317880
- Title: Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models
- Title(参考訳): Edu-Values:大規模言語モデルの中国語教育価値の評価に向けて
- Authors: Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Jing Qin,
- Abstract要約: 大規模言語モデルのアライメント能力を測定するために設計された,中国初の教育価値評価ベンチマークであるEdu-Valuesを提案する。
我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。
教育文化の相違により、中国語のLLMは英語のLLMを大きく上回り、Qwen 2は81.37でランクインした。
- 参考スコア(独自算出の注目度): 9.761584874383873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent evolution of large language models (LLMs), concerns about aligning such models with human values have grown. Previous research has primarily focused on assessing LLMs' performance in terms of the Helpful, Honest, Harmless (3H) basic principles, while often overlooking their alignment with educational values in the Chinese context. To fill this gap, we present Edu-Values, the first Chinese education values evaluation benchmark designed to measure LLMs' alignment ability across seven dimensions: professional ideology, cultural literacy, educational knowledge and skills, education laws and regulations, teachers' professional ethics, basic competencies, and subject knowledge. We meticulously design and compile 1,418 questions, including multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and questions on traditional Chinese culture. We conduct both human evaluation and automatic evaluation over 11 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs significantly outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs perform well in subject knowledge and teaching skills but struggle with teachers' professional ethics and basic competencies; (3) LLMs excel at multiple-choice questions but perform poorly on subjective analysis and multi-modal tasks. This demonstrates the effectiveness and potential of the proposed benchmark. Our dataset is available at https://github.com/zhangpeii/Edu-Values.git.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の発展に伴い、そのようなモデルと人間の価値の整合性への懸念が高まっている。
従来の研究は主に、ヘルプフル、正直、ハームレス(3H)の基本原理の観点からLLMのパフォーマンスを評価することに焦点を当ててきたが、中国の文脈における教育的価値観との整合性を見越すことが多かった。
このギャップを埋めるために、我々は、専門的イデオロギー、文化リテラシー、教育知識と技能、教育法と規制、教師の専門的倫理、基礎的能力、および主観的知識の7つの分野にわたるLLMのアライメント能力を測定するために設計された、最初の中国の教育価値評価ベンチマークであるEdu-Valuesを提示する。
我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。
1)教育文化の違いにより、中国語のLLMは英語のLLMを著しく上回り、Qwen 2は81.37のスコアで第1位となり、(2)LLMは教科の知識と指導力に優れ、教師の専門的倫理と基礎的能力に苦しむ、(3)LLMは多分野の質問に優れ、主観的分析とマルチモーダルタスクに優れる、という3つの主な結果が浮き彫りにされた。
これは提案したベンチマークの有効性と可能性を示す。
データセットはhttps://github.com/zhangpeii/Edu-Values.git.comから入手可能です。
関連論文リスト
- Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring [8.71931996488953]
大規模言語モデルは、教師のためのエッセイ・スコーリング作業を容易にする潜在的なソリューションを提供する。
大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。
我々は,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価した。
論文 参考訳(メタデータ) (2024-11-25T12:33:14Z) - Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。
関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。
以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T15:36:30Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for
Large Language Models [44.74622336775077]
我々は,中国のK-12教育分野を対象とした総合的な評価ベンチマークであるE-EVALを紹介する。
E-EVALは、中国語、英語、政治学、歴史、倫理学、物理学、化学、数学、地理学など幅広い分野の小学校、中学校、高校の4,351問からなる。
GPT 4.0よりも多くのスコアが高いが、ほとんどのモデルは数学のような複雑な科目では性能が劣っている。
論文 参考訳(メタデータ) (2024-01-29T07:34:37Z) - ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large
Language Models [17.562961249150295]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。
ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。
ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文 参考訳(メタデータ) (2023-08-28T06:56:44Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。