論文の概要: Towards interpretable models for language proficiency assessment: Predicting the CEFR level of Estonian learner texts
- arxiv url: http://arxiv.org/abs/2602.13102v1
- Date: Fri, 13 Feb 2026 17:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.048527
- Title: Towards interpretable models for language proficiency assessment: Predicting the CEFR level of Estonian learner texts
- Title(参考訳): 言語習熟度評価のための解釈可能なモデルに向けて:エストニア語学習テキストのCEFRレベルの予測
- Authors: Kais Allkivi,
- Abstract要約: 本研究はエストニアの熟練度試験書(レベルA2-C1)の分類を目的としたものである。
訓練データの様々な言語特性を解析し、関連する熟練度予測器を同定した。
結果はエストニアのオープンソース言語学習環境の文字評価モジュールに実装されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using NLP to analyze authentic learner language helps to build automated assessment and feedback tools. It also offers new and extensive insights into the development of second language production. However, there is a lack of research explicitly combining these aspects. This study aimed to classify Estonian proficiency examination writings (levels A2-C1), assuming that careful feature selection can lead to more explainable and generalizable machine learning models for language testing. Various linguistic properties of the training data were analyzed to identify relevant proficiency predictors associated with increasing complexity and correctness, rather than the writing task. Such lexical, morphological, surface, and error features were used to train classification models, which were compared to models that also allowed for other features. The pre-selected features yielded a similar test accuracy but reduced variation in the classification of different text types. The best classifiers achieved an accuracy of around 0.9. Additional evaluation on an earlier exam sample revealed that the writings have become more complex over a 7-10-year period, while accuracy still reached 0.8 with some feature sets. The results have been implemented in the writing evaluation module of an Estonian open-source language learning environment.
- Abstract(参考訳): NLPを使用して真正学習言語を分析することで、自動アセスメントとフィードバックツールの構築を支援する。
また、第二言語生産の開発に関する、新しくて広範な洞察も提供する。
しかし、これらの側面を明示的に組み合わせた研究は乏しい。
本研究の目的は、エストニアの熟練度試験書(レベルA2-C1)を分類することであり、注意深い特徴選択が言語テストのためのより説明可能で一般化可能な機械学習モデルにつながることを前提としている。
学習データの言語特性を解析し,文章作成作業よりも複雑さと正確さの増大に伴う習熟度予測因子を同定した。
このような語彙的、形態的、表面的、エラーの特徴は分類モデルの訓練に用いられ、他の特徴も許容するモデルと比較された。
事前選択された特徴は、同様のテスト精度を得たが、異なるテキストタイプの分類のばらつきを減らした。
最高の分類器は約0.9の精度を達成した。
先行試験試料のさらなる評価により,7~10年で書き込みが複雑になり,精度が0.8に向上し,いくつかの特徴セットが得られた。
結果はエストニアのオープンソース言語学習環境の文字評価モジュールに実装されている。
関連論文リスト
- Avaliação de eficiência na leitura: uma abordagem baseada em PLN [0.0]
本研究では,ブラジルポルトガル語におけるクローゼテストの自動評価モデルを提案する。
統合された手法は,その有効性を示し,人的評価と高い相関性を示した。
論文 参考訳(メタデータ) (2025-08-18T02:21:12Z) - data2lang2vec: Data Driven Typological Features Completion [8.28573483085828]
我々は1,749言語で70%以上の精度を達成し,多言語対応のPOSタグを導入した。
また、タイポロジーに欠ける可能性のある機能に焦点を当てた、より現実的な評価設定も導入しています。
論文 参考訳(メタデータ) (2024-09-25T21:32:57Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - A Transfer Learning Based Model for Text Readability Assessment in
German [4.550811027560416]
移動学習に基づくドイツ語テキストのテキスト複雑性評価のための新しいモデルを提案する。
最高のモデルはBERTの事前訓練言語モデルに基づいており、Root Mean Square Error (RMSE) は 0.483 である。
論文 参考訳(メタデータ) (2022-07-13T15:15:44Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。