論文の概要: FEANEL: A Benchmark for Fine-Grained Error Analysis in K-12 English Writing
- arxiv url: http://arxiv.org/abs/2511.22883v1
- Date: Fri, 28 Nov 2025 05:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.772047
- Title: FEANEL: A Benchmark for Fine-Grained Error Analysis in K-12 English Writing
- Title(参考訳): FEANEL:K-12英語表記における細粒度誤り解析のベンチマーク
- Authors: Jingheng Ye, Shen Wang, Jiaqi Chen, Hebin Wang, Deqing Zou, Yanyu Zhu, Jiwei Tang, Hai-Tao Zheng, Ruitong Liu, Haoyang Li, Yanfeng Wang, Qingsong Wen,
- Abstract要約: 本稿では,英語学習者のための細粒度誤り解析(FEANEL)ベンチマークを提案する。
ベンチマークは、小学生と中学生が書いた1000のエッセイから成っている。
各エラーは言語教育の専門家によって注釈付けされ、彼らが共同開発した音声に基づく分類法を用いて、タイプ、重大度、説明的フィードバックによって分類される。
- 参考スコア(独自算出の注目度): 68.23874413455594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have transformed artificial intelligence, offering profound opportunities for educational applications. However, their ability to provide fine-grained educational feedback for K-12 English writing remains underexplored. In this paper, we challenge the error analysis and pedagogical skills of LLMs by introducing the problem of Fine-grained Error Analysis for English Learners and present the Fine-grained Error ANalysis for English Learners (FEANEL) Benchmark. The benchmark comprises 1,000 essays written by elementary and secondary school students, and a well-developed English writing error taxonomy. Each error is annotated by language education experts and categorized by type, severity, and explanatory feedback, using a part-of-speech-based taxonomy they co-developed. We evaluate state-of-the-art LLMs on the FEANEL Benchmark to explore their error analysis and pedagogical abilities. Experimental results reveal significant gaps in current LLMs' ability to perform fine-grained error analysis, highlighting the need for advancements in particular methods for educational applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能を変革し、教育アプリケーションに多大な機会を与えている。
しかし、K-12英語の文章にきめ細かい教育的フィードバックを提供する能力は、いまだ解明されていない。
本稿では,LLMの誤り解析と教育技術に挑戦し,英語学習者のためのきめ細かい誤り解析の問題を導入し,英語学習者のためのきめ細かい誤り解析(FEANEL)ベンチマークを提案する。
このベンチマークは、小学生や中学生によって書かれた1000のエッセイと、よく開発された英語の誤り分類から成っている。
各エラーは言語教育の専門家によって注釈付けされ、彼らが共同開発した音声に基づく分類法を用いて、タイプ、重大度、説明的フィードバックによって分類される。
FEANEL Benchmark 上での最先端 LLM の評価を行い,その誤り解析と教育的能力について検討した。
実験結果から,現在のLLMの細粒度エラー解析能力の差が顕著であり,特に教育用手法の進歩の必要性が示唆された。
関連論文リスト
- Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Testing LLMs' Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT [3.9325957466009203]
本研究では,誤り型に基づくMT出力のアノテートにおける大規模言語モデル(LLM)の機能について検討する。
我々は、ChatGPTアノテーションとDeepLとChatGPT自体による翻訳の人間の専門家による評価を比較した。
論文 参考訳(メタデータ) (2025-04-21T12:21:37Z) - CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models [6.0020878662404975]
本稿では、外国語教育の文脈において、LLMの教育文法に関する知識を評価するために設計された最初のベンチマークを紹介する。
このベンチマークは、文法認識、微粒な文法的区別、分類的識別、言語的干渉に対する抵抗性を評価するために設計された5つのタスクからなる。
論文 参考訳(メタデータ) (2025-04-17T18:01:50Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。