Fugu-MT 論文翻訳(概要): Strategies for Arabic Readability Modeling

論文の概要: Strategies for Arabic Readability Modeling

arxiv url: http://arxiv.org/abs/2407.03032v1
Date: Wed, 3 Jul 2024 11:54:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 14:35:46.900863
Title: Strategies for Arabic Readability Modeling
Title（参考訳）: アラビア可読性モデリングのための戦略
Authors: Juan Piñeros Liberato, Bashar Alhafni, Muhamed Al Khalil, Nizar Habash,
Abstract要約: 自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
参考スコア（独自算出の注目度）: 9.976720880041688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic readability assessment is relevant to building NLP applications for education, content analysis, and accessibility. However, Arabic readability assessment is a challenging task due to Arabic's morphological richness and limited readability resources. In this paper, we present a set of experimental results on Arabic readability assessment using a diverse range of approaches, from rule-based methods to Arabic pretrained language models. We report our results on a newly created corpus at different textual granularity levels (words and sentence fragments). Our results show that combining different techniques yields the best results, achieving an overall macro F1 score of 86.7 at the word level and 87.9 at the fragment level on a blind test set. We make our code, data, and pretrained models publicly available.
Abstract（参考訳）: 自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。しかし、アラビア語の可読性の評価は、アラビア語の形態的豊かさと限られた可読性資源のために難しい課題である。本稿では,ルールベース手法からアラビア事前学習言語モデルまで,多種多様なアプローチを用いたアラビア可読性評価に関する実験結果について述べる。テキストの粒度が異なるコーパス(単語と文の断片)で新たに作成したコーパスについて報告する。その結果,単語レベルでは86.7のマクロF1スコア,ブラインドテストセットでは87.9のマクロF1スコアが得られた。コード、データ、事前訓練されたモデルを公開しています。

関連論文リスト

A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment [10.853984915007961]
本稿では,バランスドアラビア可読性評価コーパスBARECを紹介する。 BARECは、100万語を超える68,182の文で構成され、19の可読性レベルをカバーするために慎重にキュレートされている。コーパスは、アノテーターの大規模なチームによって手動で注釈付けされた。
論文参考訳（メタデータ） (2025-02-19T08:16:11Z)
How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文参考訳（メタデータ） (2025-01-27T21:30:02Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Guidelines for Fine-grained Sentence-level Arabic Readability Annotation [9.261022921574318]
Balanced Arabic Readability Evaluation Corpus (BAREC) プロジェクトは、さまざまな可読性レベルに対応する包括的なアラビア語リソースの必要性に対処するために設計されている。 Taha/Arabi21の可読性参照にインスパイアされたBARECは、19の異なるレベルにわたる文レベルのアラビア文字の可読性を評価するための標準化された参照を提供することを目指している。本稿は,10,631文・フレーズ(113,651語)の分析を通じて,本ガイドラインに焦点をあてたものである。
論文参考訳（メタデータ） (2024-10-11T09:59:46Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。アラビアサデータセットの公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-09-24T19:26:53Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文参考訳（メタデータ） (2023-06-06T10:18:17Z)
ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文参考訳（メタデータ） (2022-12-21T04:35:43Z)
A Transfer Learning Based Model for Text Readability Assessment in German [4.550811027560416]
移動学習に基づくドイツ語テキストのテキスト複雑性評価のための新しいモデルを提案する。最高のモデルはBERTの事前訓練言語モデルに基づいており、Root Mean Square Error (RMSE) は 0.483 である。
論文参考訳（メタデータ） (2022-07-13T15:15:44Z)
Efficient Measuring of Readability to Improve Documents Accessibility for Arabic Language Learners [0.0]
この手法は、テキストの読みと理解の難易度を区別する機械学習の分類法に基づいている。いくつかのモデルは、オンラインアラビアのウェブサイトから採掘された巨大なコーパスで訓練され、手動で注釈付けされた。 TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。
論文参考訳（メタデータ） (2021-09-09T10:05:38Z)
Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文参考訳（メタデータ） (2020-04-06T02:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。