論文の概要: EvalYaks: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts
- arxiv url: http://arxiv.org/abs/2408.12226v1
- Date: Thu, 22 Aug 2024 08:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:43:27.595521
- Title: EvalYaks: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts
- Title(参考訳): EvalYaks: CEFR B2 の自動スコーディングのためのインストラクションチューニングデータセットとLoRAファインチューニングモデル
- Authors: Nicy Scaria, Silvester John Joseph Kennedy, Thomas Latinovich, Deepak Subramani,
- Abstract要約: EvalYaks と呼ばれるモデル群を開発し,CEFR B2 を英語で評価・評価する。
EvalYaksは平均許容精度96%、変量0.35の精度を達成し、次のベストモデルの3倍の精度で実行された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Relying on human experts to evaluate CEFR speaking assessments in an e-learning environment creates scalability challenges, as it limits how quickly and widely assessments can be conducted. We aim to automate the evaluation of CEFR B2 English speaking assessments in e-learning environments from conversation transcripts. First, we evaluate the capability of leading open source and commercial Large Language Models (LLMs) to score a candidate's performance across various criteria in the CEFR B2 speaking exam in both global and India-specific contexts. Next, we create a new expert-validated, CEFR-aligned synthetic conversational dataset with transcripts that are rated at different assessment scores. In addition, new instruction-tuned datasets are developed from the English Vocabulary Profile (up to CEFR B2 level) and the CEFR-SP WikiAuto datasets. Finally, using these new datasets, we perform parameter efficient instruction tuning of Mistral Instruct 7B v0.2 to develop a family of models called EvalYaks. Four models in this family are for assessing the four sections of the CEFR B2 speaking exam, one for identifying the CEFR level of vocabulary and generating level-specific vocabulary, and another for detecting the CEFR level of text and generating level-specific text. EvalYaks achieved an average acceptable accuracy of 96%, a degree of variation of 0.35 levels, and performed 3 times better than the next best model. This demonstrates that a 7B parameter LLM instruction tuned with high-quality CEFR-aligned assessment data can effectively evaluate and score CEFR B2 English speaking assessments, offering a promising solution for scalable, automated language proficiency evaluation.
- Abstract(参考訳): Eラーニング環境でCEFRの音声評価を評価するための人間専門家を頼りにすると、どの程度の迅速かつ広範囲な評価を行うことができるかを制限するため、スケーラビリティの課題が生じる。
本研究の目的は,会話書き起こしからのeラーニング環境におけるCEFR B2英語音声評価の自動化である。
まず,CEFR B2話者試験において,グローバルおよびインド固有の文脈において,様々な基準において,オープンソースのLarge Language Models (LLMs) を指導し,候補者のパフォーマンスを評価する能力を評価する。
次に、専門家によるCEFR対応の合成会話データセットを作成し、異なる評価スコアで評価する。
さらに、英語の語彙プロファイル(CEFR B2レベルまで)とCEFR-SP WikiAutoデータセットから新しい命令調整データセットを開発する。
最後に、これらの新しいデータセットを用いて、Mistral Instruct 7B v0.2のパラメータ効率的な命令チューニングを行い、EvalYaksと呼ばれるモデルのファミリーを開発する。
この家系の4つのモデルは、CEFR B2言語試験の4つのセクションを評価するためのものであり、1つは、CEFRの語彙レベルを特定し、レベル固有の語彙を生成するためのものであり、もう1つは、CEFRのテキストレベルを検出し、レベル固有のテキストを生成するためのものである。
EvalYaksは平均許容精度96%、変量0.35の精度を達成し、次のベストモデルの3倍の精度で実行された。
高品質なCEFR-アライメントアセスメントデータで調整された7BパラメータLLM命令は、CEFR B2英語音声アセスメントを効果的に評価し、評価できることを示し、スケーラブルで自動化された言語習熟度評価のための有望なソリューションを提供する。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - Can GPT-4 do L2 analytic assessment? [34.445391091278786]
第二言語(L2)の習熟度を評価するための自動エッセイスコア(AES)は、何十年にもわたって教育の文脈で使われている、しっかりと確立された技術である。
本稿では,GPT-4をゼロショット方式で,総合的なスコアを付加したデータセット上で,一連の実験を行う。
自動予測された分析スコアと,個々の習熟度成分に関連する複数の特徴との間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2024-04-29T10:00:00Z) - Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。
我々は人的・自動的な評価のためのプロトコルを開発した。
以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文 参考訳(メタデータ) (2024-04-11T13:11:21Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。