Fugu-MT 論文翻訳(概要): Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models

論文の概要: Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models

arxiv url: http://arxiv.org/abs/2409.12739v3
Date: Fri, 21 Mar 2025 14:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:09.736683
Title: Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models
Title（参考訳）: Edu-Values:大規模言語モデルの中国語教育価値の評価に向けて
Authors: Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Prayag Tiwari, Jing Qin,
Abstract要約: Edu-Valuesは7つのコア値を含む最初の中国の教育価値評価ベンチマークである。 Edu-Valuesには、専門哲学、教師の専門的倫理、教育法と規則、文化リテラシー、教育知識と技能、基礎的能力、主題的知識が含まれる。
参考スコア（独自算出の注目度）: 13.790068801864855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present Edu-Values, the first Chinese education values evaluation benchmark that includes seven core values: professional philosophy, teachers' professional ethics, education laws and regulations, cultural literacy, educational knowledge and skills, basic competencies and subject knowledge. We meticulously design 1,418 questions, covering multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and Chinese traditional culture (short answer) questions. We conduct human feedback based automatic evaluation over 21 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs often struggle with teachers' professional ethics and professional philosophy; (3) leveraging Edu-Values to build an external knowledge repository for RAG significantly improves LLMs' alignment. This demonstrates the effectiveness of the proposed benchmark.
Abstract（参考訳）: 本稿では,専門哲学,教員の専門的倫理,教育法と規則,文化リテラシー,教育知識と技能,基礎的能力と教科知識の7つのコアバリューを含む,中国初の教育価値評価ベンチマークであるEdu-Valuesを紹介する。我々は、1,418の質問を慎重に設計し、複数選択、多モーダルな質問応答、主観的分析、敵対的プロンプト、中国の伝統文化(短解)質問を網羅した。 1)教育文化の違いにより、中国語のLLMは英語のLLMよりも優れており、Qwen 2は81.37のスコアで第1位、(2)LLMは教師の専門的倫理と専門的哲学に苦しむことが多い、(3)Edu-Valuesを活用してRAGの外部知識リポジトリを構築することで、LLMのアライメントが大幅に向上する、という3つの主な結果が浮かび上がっている。これは提案したベンチマークの有効性を示す。

関連論文リスト

MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文参考訳（メタデータ） (2025-03-20T04:26:40Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan [20.92636353621876]
本稿では,従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。評価スイートは,VisTW-MCQとVisTW-Dialogueの2つの相補的なコンポーネントを含む。
論文参考訳（メタデータ） (2025-03-13T14:49:35Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring [8.71931996488953]
大規模言語モデルは、教師のためのエッセイ・スコーリング作業を容易にする潜在的なソリューションを提供する。大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。我々は,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価した。
論文参考訳（メタデータ） (2024-11-25T12:33:14Z)
Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-08-20T15:36:30Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文参考訳（メタデータ） (2024-04-29T01:49:07Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。 TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文参考訳（メタデータ） (2024-03-29T13:56:21Z)
LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文参考訳（メタデータ） (2024-03-19T10:11:14Z)
E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models [44.74622336775077]
我々は,中国のK-12教育分野を対象とした総合的な評価ベンチマークであるE-EVALを紹介する。 E-EVALは、中国語、英語、政治学、歴史、倫理学、物理学、化学、数学、地理学など幅広い分野の小学校、中学校、高校の4,351問からなる。 GPT 4.0よりも多くのスコアが高いが、ほとんどのモデルは数学のような複雑な科目では性能が劣っている。
論文参考訳（メタデータ） (2024-01-29T07:34:37Z)
ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.562961249150295]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文参考訳（メタデータ） (2023-08-28T06:56:44Z)
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2023-07-19T01:22:40Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。