論文の概要: LAILA: A Large Trait-Based Dataset for Arabic Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2512.24235v1
- Date: Tue, 30 Dec 2025 13:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.391479
- Title: LAILA: A Large Trait-Based Dataset for Arabic Automated Essay Scoring
- Title(参考訳): LAILA:アラビア語の自動評価のための大規模トレーサベースデータセット
- Authors: May Bashendy, Walid Massoud, Sohaila Eltanbouly, Salam Albatarni, Marwan Sayed, Abrar Abir, Houda Bouamor, Tamer Elsayed,
- Abstract要約: LAILAは7つの次元(関連性、組織、語彙、スタイル、開発、メカニクス、文法)について、総合的および特性特異的なスコアで注釈付けされた7,859のエッセイを含む、これまでで最大のアラビア語のAESデータセットである。
データセットの設計、収集、アノテーションについて詳述し、現在最先端のアラビア語と英語のモデルを用いて、プロンプトとクロスプロンプトの設定でベンチマーク結果を提供する。
- 参考スコア(独自算出の注目度): 7.121813878009244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated Essay Scoring (AES) has gained increasing attention in recent years, yet research on Arabic AES remains limited due to the lack of publicly available datasets. To address this, we introduce LAILA, the largest publicly available Arabic AES dataset to date, comprising 7,859 essays annotated with holistic and trait-specific scores on seven dimensions: relevance, organization, vocabulary, style, development, mechanics, and grammar. We detail the dataset design, collection, and annotations, and provide benchmark results using state-of-the-art Arabic and English models in prompt-specific and cross-prompt settings. LAILA fills a critical need in Arabic AES research, supporting the development of robust scoring systems.
- Abstract(参考訳): AES (Automated Essay Scoring) は近年注目されているが、アラビアのAESの研究は、公開されているデータセットが不足しているために制限されている。
LAILAは、現在利用可能なアラビア語のAESデータセットとして最大で、7つの次元(関連性、組織、語彙、スタイル、開発、メカニクス、文法)について、総合的および特性特異的なスコアで注釈付けされた7,859のエッセイを含む。
データセットの設計、収集、アノテーションについて詳述し、現在最先端のアラビア語と英語のモデルを用いて、プロンプトとクロスプロンプトの設定でベンチマーク結果を提供する。
LAILAはアラビアAES研究における重要なニーズを満たし、ロバストなスコアリングシステムの開発を支援している。
関連論文リスト
- Dhati+: Fine-tuned Large Language Models for Arabic Subjectivity Evaluation [0.0]
その重要性にもかかわらず、アラビア語は資金不足に直面している。
大きな注釈付きデータセットの不足は、アラビア語の主観分析のための正確なツールの開発を妨げている。
近年のディープラーニングとトランスフォーマーの進歩は、英語とフランス語のテキスト分類に非常に効果的であることが証明されている。
論文 参考訳(メタデータ) (2025-08-27T15:20:12Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.3750624267664155]
古典アラビア語は、アラブ文化、哲学、科学文学の黄金時代を包含する重要な時代である。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは、66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。