Fugu-MT 論文翻訳(概要): Automated Essay Scoring and Language Certification: Assessing Generalizability, Agreement and Validity for French

論文の概要: Automated Essay Scoring and Language Certification: Assessing Generalizability, Agreement and Validity for French

arxiv url: http://arxiv.org/abs/2606.02009v1
Date: Mon, 01 Jun 2026 10:03:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:31.778995
Title: Automated Essay Scoring and Language Certification: Assessing Generalizability, Agreement and Validity for French
Title（参考訳）: 自動評価と言語認定: フランス語の一般化可能性, 合意, 妥当性の評価
Authors: Rodrigo Wilkens, Rémi Cardon, Vincent Folny, Thomas François,
Abstract要約: 議論に基づく検証フレームワーク(ABV)の拡張的で実用的なバージョンを紹介します。我々は、27k試験エッセイのコーパス(それぞれ2つのラガー)と991エッセイの一般化コーパス(それぞれ少なくとも9つのラガー)の8つのモデルアーキテクチャを比較した。分析では,AESモデルの能力と落とし穴をよりよく理解するためにABVフレームワークを適用した利点を概説する。
参考スコア（独自算出の注目度）: 1.7666845764616836
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In Automated Essay Scoring (AES), benchmarking practices have fostered minimalist evaluation practices, in contrast with the broader-view recommendations of evaluation frameworks, such as the argument-based validation framework (ABV), which argued in favor of a multidimensional assessment of systems, especially in the context of high-stakes language tests. In this paper, we introduce an enhanced and more practical version of the ABV framework, incorporating fairness analysis, correlations with linguistic features, prediction error evaluation, and model agreement compared with human raters. Applying this framework to French AES, we compare 8 model architectures on a corpus of 27k exam essays (2 raters each) and a generalization corpus of 961 essays (at least nine raters each). Our analyses illustrate the benefits of applying the ABV framework to better understand the capabilities and pitfalls of AES models, while also advancing the state-of-the-art for French AES.
Abstract（参考訳）: AES(Automated Essay Scoring)において、ベンチマークプラクティスは、特に高い評価言語テストの文脈において、システムの多次元評価を支持する議論ベースの検証フレームワーク(ABV)のような評価フレームワークのより広い視点での推奨と対照的に、最小主義的な評価プラクティスを育んでいる。本稿では, 公平性分析, 言語的特徴との相関, 予測誤差評価, モデル合意を人間のレーダと比較した, ABVフレームワークの拡張的で実用的なバージョンを提案する。このフレームワークをフランスAESに適用し、27kの試験エッセイ(それぞれ2つのラテンダー)と961のエッセイ(それぞれ少なくとも9つのラテンダー)の一般化コーパスの8つのモデルアーキテクチャを比較します。本分析では,AESモデルの能力と落とし穴をよりよく理解するためにABVフレームワークを適用することのメリットを解説するとともに,フランスAESの最先端を推し進める。

関連論文リスト

Annotation Quality in Aspect-Based Sentiment Analysis: A Case Study Comparing Experts, Students, Crowdworkers, and Large Language Model [5.054478273897118]
Aspect-Based Sentiment Analysis (ABSA)は、テキスト内の特定の側面やターゲットに対する感情を識別することで、詳細な意見分析を可能にする。 ABSAは英語で広く研究されているが、高品質な注釈付きデータセットが欠如していることから、ドイツ語などの他の言語の研究は限られている。本稿では,異なるアノテーション源がドイツのABSAの発展にどのように影響するかを検討する。
論文参考訳（メタデータ） (2026-05-05T10:54:05Z)
Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark [9.922581736690159]
カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。 OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
論文参考訳（メタデータ） (2026-03-01T03:32:51Z)
Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文参考訳（メタデータ） (2025-08-14T16:18:37Z)
Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文参考訳（メタデータ） (2025-05-13T20:36:22Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。 WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文参考訳（メタデータ） (2024-11-02T15:22:26Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。