Fugu-MT 論文翻訳(概要): Beyond Accuracy: Towards a Robust Evaluation Methodology for AI Systems for Language Education

論文の概要: Beyond Accuracy: Towards a Robust Evaluation Methodology for AI Systems for Language Education

arxiv url: http://arxiv.org/abs/2603.20088v1
Date: Fri, 20 Mar 2026 16:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.225302
Title: Beyond Accuracy: Towards a Robust Evaluation Methodology for AI Systems for Language Education
Title（参考訳）: 言語教育のためのAIシステムのためのロバスト評価方法論
Authors: James Edgell, Wm. Matthew Kennedy, Isaac Pattis, Ben Knight, Danielle Carvalho, Elizabeth Wonnacott,
Abstract要約: AIによる言語教育における大規模言語モデルの急速な採用は、教育的効果を評価するための評価を緊急に必要としてきた。 L2-Benchは、検証済みの「言語学習経験設計者」構築に基礎を置いた、新しい評価ベンチマークである。本手法は,教育学理論,社会工学的AI評価手法を統合し,階層的な分類法を運用し,専門家が計算したデータセットを構築する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The rapid adoption of large language models in AI-powered language education has created an urgent need for evaluations that assess pedagogical effectiveness, particularly in language learning--one of the most common LLM use cases (Tamkin et al. 2024, Costa-Gomes et al. 2025). With only narrowly defined task-specific evaluations of AI system capabilities in second language (L2) education existing in the literature, we require more holistic approaches in this AI for education space. To address this gap, we introduce L2-Bench, a novel evaluation benchmark grounded in a validated "language learning experience designer" construct to assess AI capabilities across L2 education contexts. Our methodology integrates pedagogical theory, sociotechnical AI evaluation methods, and operationalizes a hierarchical taxonomy to structure an expert-curated dataset of over 1,000 authentic rubric-scored task-response pairs with measurement and scoring pipeline. We report the results of a pilot validation exercise (N = 39) on an initial sample of our dataset (tasks were validated as authentic [M = 4.23 out of 5], but criteria scores were lower [M = 3.94], with universally poor inter-annotator agreement despite good internal consistency), alongside the experimental design for our follow-up practitioner data validation study as we iterate and scale to the full dataset. Ultimately, this research not only offers methodological lessons towards a more context-specific AI evaluations ecosystem, but also works towards better design of reproducible evaluations for AI systems deployed to educational contexts.
Abstract（参考訳）: AIによる言語教育における大規模言語モデルの急速な採用は、特にLLMのユースケース(Tamkin et al 2024, Costa-Gomes et al 2025)のうちの1つで、教育的効果を評価するための評価を緊急に必要としてきた。文献に存在する第2言語(L2)教育におけるAIシステム能力のタスク固有の評価を狭義に定義しただけで、このAIの教育分野におけるより包括的なアプローチが必要である。このギャップに対処するために、L2-Benchを紹介します。L2教育コンテキストにわたるAI能力を評価するために、検証済みの"言語学習エクスペリエンスデザイナ"構築に基礎を置いている、新しい評価ベンチマークです。本手法は, 教育理論, 社会工学的AI評価手法を統合し, 階層型分類法を運用し, 実測と採点パイプラインによる1000以上の実測的ルーリック対応タスク・レスポンス・ペアのデータセットを構築する。我々は,本データセットの初期サンプルに対するパイロット検証演習(N = 39)の結果を報告する(タスクは認証 [M = 4.23, 5] として検証されたが,基準スコアは低い [M = 3.94] であり,内部整合性が良好であるにもかかわらず,共通的にアノテータ間の合意が低い [M = 3.94] )。究極的には、この研究は、よりコンテキスト固有のAI評価エコシステムに対する方法論的な教訓を提供するだけでなく、教育コンテキストにデプロイされたAIシステムの再現可能な評価のより良い設計にも取り組んでいる。

関連論文リスト

Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark [9.922581736690159]
カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。 OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
論文参考訳（メタデータ） (2026-03-01T03:32:51Z)
Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文参考訳（メタデータ） (2026-02-04T14:30:52Z)
Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies [6.934935343001595]
我々は、幅広いカリキュラム文書、能力フレームワーク、モデルを調べることで、以前のカリキュラム分析研究を拡張した。カリキュラムのアライメントスコアを手動で7,600点を用いて評価した。我々はLLMの教育的推論を強化するための推論に基づくプロンプト戦略であるCurricular CoTを導入する。
論文参考訳（メタデータ） (2026-01-16T04:07:23Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [82.0813150432867]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、13のアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文参考訳（メタデータ） (2025-05-05T12:36:03Z)
CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models [6.0020878662404975]
本稿では、外国語教育の文脈において、LLMの教育文法に関する知識を評価するために設計された最初のベンチマークを紹介する。このベンチマークは、文法認識、微粒な文法的区別、分類的識別、言語的干渉に対する抵抗性を評価するために設計された5つのタスクからなる。
論文参考訳（メタデータ） (2025-04-17T18:01:50Z)
A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-29T19:32:43Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。