論文の概要: EgyBERT: A Large Language Model Pretrained on Egyptian Dialect Corpora
- arxiv url: http://arxiv.org/abs/2408.03524v1
- Date: Wed, 7 Aug 2024 03:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:05:27.708472
- Title: EgyBERT: A Large Language Model Pretrained on Egyptian Dialect Corpora
- Title(参考訳): EgyBERT:エジプト方言コーパスで事前訓練された大規模言語モデル
- Authors: Faisal Qarah,
- Abstract要約: 本研究は、エジプト方言の10.4GBのテキストで事前訓練されたアラビア語の言語モデルであるEgyBERTを提示する。
EgyBERTは平均F1スコア84.25%、精度87.33%を達成した。
本研究はエジプトの方言データセット上での各種言語モデルの性能を評価する最初の研究である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study presents EgyBERT, an Arabic language model pretrained on 10.4 GB of Egyptian dialectal texts. We evaluated EgyBERT's performance by comparing it with five other multidialect Arabic language models across 10 evaluation datasets. EgyBERT achieved the highest average F1-score of 84.25% and an accuracy of 87.33%, significantly outperforming all other comparative models, with MARBERTv2 as the second best model achieving an F1-score 83.68% and an accuracy 87.19%. Additionally, we introduce two novel Egyptian dialectal corpora: the Egyptian Tweets Corpus (ETC), containing over 34.33 million tweets (24.89 million sentences) amounting to 2.5 GB of text, and the Egyptian Forums Corpus (EFC), comprising over 44.42 million sentences (7.9 GB of text) collected from various Egyptian online forums. Both corpora are used in pretraining the new model, and they are the largest Egyptian dialectal corpora to date reported in the literature. Furthermore, this is the first study to evaluate the performance of various language models on Egyptian dialect datasets, revealing significant differences in performance that highlight the need for more dialect-specific models. The results confirm the effectiveness of EgyBERT model in processing and analyzing Arabic text expressed in Egyptian dialect, surpassing other language models included in the study. EgyBERT model is publicly available on \url{https://huggingface.co/faisalq/EgyBERT}.
- Abstract(参考訳): 本研究は、エジプト方言の10.4GBのテキストで事前訓練されたアラビア語の言語モデルであるEgyBERTを提示する。
我々は、EgyBERTの性能を10個の評価データセットで比較し、他の5つの多言語アラビア語モデルと比較した。
EgyBERTは平均F1スコア84.25%、精度87.33%を達成し、MARBERTv2はF1スコア83.68%、精度87.19%という2番目に優れたモデルとなった。
さらに,エジプト語方言コーパス (ETC) には,3億3300万件のツイート (24.89万文) が2.5GBのテキストを含むエジプト語方言コーパス (ETC) と,エジプト語オンラインフォーラムから収集された44.42万件 (7.9GBテキスト) の文からなるエジプト語フォーラムコーパス (EFC) という2つの新しいエジプト語方言コーパスを紹介する。
どちらのコーパスも新しいモデルの事前訓練に使われており、文献で報告されているエジプト最大の方言コーパスである。
さらに、エジプトの方言データセット上で様々な言語モデルの性能を評価する最初の研究であり、より方言固有のモデルの必要性を強調したパフォーマンスの顕著な違いを明らかにしている。
その結果,エジプト方言で表現されるアラビア文字の処理と解析におけるEgyBERTモデルの有効性が,研究に含まれる他の言語モデルを上回った。
EgyBERT モデルは \url{https://huggingface.co/faisalq/EgyBERT} で公開されている。
関連論文リスト
- AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - AraPoemBERT: A Pretrained Language Model for Arabic Poetry Analysis [0.0]
AraPoemBERTはアラビア語の詩文に特化して訓練されたアラビア語モデルである。
AraPoemBERTは、詩のジェンダー分類と詩のサブメーター分類という3つの新しいタスクのうちの2つにおいて、前例のない精度を達成した。
この研究で使用されるデータセットには、オンラインソースから収集された2億9900万の詩が含まれている。
論文 参考訳(メタデータ) (2024-03-19T02:59:58Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。