Fugu-MT 論文翻訳(概要): Enhancing Arabic Automated Essay Scoring with Synthetic Data and Error Injection

論文の概要: Enhancing Arabic Automated Essay Scoring with Synthetic Data and Error Injection

arxiv url: http://arxiv.org/abs/2503.17739v2
Date: Tue, 10 Jun 2025 15:32:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:39.764262
Title: Enhancing Arabic Automated Essay Scoring with Synthetic Data and Error Injection
Title（参考訳）: 合成データと誤り注入によるアラビア自動評価の強化
Authors: Chatrine Qwaider, Bashar Alhafni, Kirill Chirkunov, Nizar Habash, Ted Briscoe,
Abstract要約: AES(Automated Essay Scoring)は,言語学習者の文章の質評価,作業負荷の低減,リアルタイムフィードバックなどにおいて重要な役割を担っている。本稿では,Large Language Models(LLM)とTransformerモデルを利用して,AESのためのアラビア語エッセイを生成する。 3,040の注釈付きエッセイのデータセットを作成し、2つのメソッドでエラーを注入します。
参考スコア（独自算出の注目度）: 10.198081881605226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated Essay Scoring (AES) plays a crucial role in assessing language learners' writing quality, reducing grading workload, and providing real-time feedback. The lack of annotated essay datasets inhibits the development of Arabic AES systems. This paper leverages Large Language Models (LLMs) and Transformer models to generate synthetic Arabic essays for AES. We prompt an LLM to generate essays across the Common European Framework of Reference (CEFR) proficiency levels and introduce and compare two approaches to error injection. We create a dataset of 3,040 annotated essays with errors injected using our two methods. Additionally, we develop a BERT-based Arabic AES system calibrated to CEFR levels. Our experimental results demonstrate the effectiveness of our synthetic dataset in improving Arabic AES performance. We make our code and data publicly available.
Abstract（参考訳）: AES(Automated Essay Scoring)は,言語学習者の文章の質評価,作業負荷の低減,リアルタイムフィードバックなどにおいて重要な役割を担っている。注釈付きエッセイデータセットの欠如は、アラビアのAESシステムの開発を阻害する。本稿では,Large Language Models(LLM)とTransformerモデルを利用して,AESのためのアラビア語エッセイを生成する。欧州共通参照フレームワーク(CEFR)の習熟度(Common European Framework of Reference)にまたがるエッセイを作成し、エラー注入の2つのアプローチを紹介し比較する。 3,040の注釈付きエッセイのデータセットを作成し、2つのメソッドでエラーを注入します。さらに,CEFRレベルに調整したBERTベースのアラビアAESシステムの開発を行った。実験の結果,アラビアAESの性能向上における合成データセットの有効性が示された。コードとデータを公開しています。

関連論文リスト

Qayyem: A Real-time Platform for Scoring Proficiency of Arabic Essays [5.404427910866254]
アラビア語 AES をサポートするために設計された Web ベースのプラットフォーム Qayyem を紹介する。 Qayyemは、アサイン作成、バッチエッセイアップロード、スコアリング設定、トレーダごとのエッセイ評価のための統合ワークフローを提供する。このプラットフォームは、さまざまな有効性と効率の数字で評価されたモデルを評価する、最先端のアラビア語エッセイを多数展開している。
論文参考訳（メタデータ） (2026-03-01T09:26:47Z)
LAILA: A Large Trait-Based Dataset for Arabic Automated Essay Scoring [7.121813878009244]
LAILAは7つの次元(関連性、組織、語彙、スタイル、開発、メカニクス、文法)について、総合的および特性特異的なスコアで注釈付けされた7,859のエッセイを含む、これまでで最大のアラビア語のAESデータセットである。データセットの設計、収集、アノテーションについて詳述し、現在最先端のアラビア語と英語のモデルを用いて、プロンプトとクロスプロンプトの設定でベンチマーク結果を提供する。
論文参考訳（メタデータ） (2025-12-30T13:49:52Z)
Automatic Essay Scoring and Feedback Generation in Basque Language Learning [4.218073067465283]
本稿では,CEFR C1の習熟度を目標とした,AES(Automatic Essay Scoring)とフィードバック生成のための最初の公開データセットを紹介する。データセットは、HABEから3,200のエッセイで構成され、それぞれ専門家評価者によって注釈付けされ、正確さ、豊かさ、一貫性、凝集度、タスクアライメントを詳細にフィードバックとエラーの例で表現する。 RoBERTa-EusCrawlやLatxa 8B/70Bといったオープンソースモデルを、スコアリングと説明生成の両方のために微調整します。
論文参考訳（メタデータ） (2025-12-09T15:28:35Z)
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文参考訳（メタデータ） (2025-05-26T08:38:02Z)
Sadeed: Advancing Arabic Diacritization Through Small Language Model [0.0]
Sadeedはアラビア語の発音のための新しいデコーダのみの言語モデルである。 Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、慎重にキュレートされた高品質なダイアグラム化されたデータセットに微調整されている。 SadeedDiac-25は、さまざまなテキストジャンルや複雑性レベルに対して、より公平で包括的な評価を可能にするために設計された、新しいベンチマークである。
論文参考訳（メタデータ） (2025-04-30T13:37:24Z)
Rank-Then-Score: Enhancing Large Language Models for Automated Essay Scoring [6.459215652021233]
大規模言語モデルに基づく微調整フレームワークであるRange-Then-Score (RTS)を提案する。 HSKとASAPという2つのベンチマークデータセットの実験結果は、RTSが平均QWKで直接プロンプト(Vanilla)法を一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-04-08T07:10:51Z)
How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文参考訳（メタデータ） (2025-01-27T21:30:02Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
CATT: Character-based Arabic Tashkeel Transformer [0.0]
タシュケル(Tashkeel)は、アラビア語のテキストの理解を大幅に強化する。本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。 11の商用およびオープンソースモデルとともに、当社のモデルを評価します。
論文参考訳（メタデータ） (2024-07-03T16:05:20Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
An Empirical Study of Automatic Post-Editing [56.86393786396992]
APEは、機械翻訳出力のエラーを自動的に修正することで、手作業による後処理の労力を削減することを目的としている。真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。本研究では,既存のAPEシステムにおける問題点を解析するために,難解なAPEデータセット上での最先端のAPEモデルの出力について検討する。
論文参考訳（メタデータ） (2022-09-16T07:38:27Z)
Revisiting Pre-trained Language Models and their Evaluation for Arabic Natural Language Understanding [44.048072667378115]
既存のアラビアのPLMは十分に探索されておらず、その事前訓練は大幅に改善できる。文献にはこれらのモデルの体系的かつ再現可能な評価が欠如している。我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-21T22:38:19Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。