論文の概要: SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora
- arxiv url: http://arxiv.org/abs/2405.06239v1
- Date: Fri, 10 May 2024 04:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:37:41.764555
- Title: SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora
- Title(参考訳): SaudiBERT:サウジ方言コーパスで事前訓練された大規模言語モデル
- Authors: Faisal Qarah,
- Abstract要約: 本稿では,サウジ方言のテキストにのみ事前訓練された単言語アラビア語モデルであるSaudiBERTを紹介する。
我々は、SaurBERTを11評価データセットの6つの異なる多言語アラビア語モデルと比較した。
サウジアラビアの方言コーパスには、サウジアラビアのつぶやきMega CorpusとサウジアラビアのフォーラムCorpusという2つの新しいコーパスがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce SaudiBERT, a monodialect Arabic language model pretrained exclusively on Saudi dialectal text. To demonstrate the model's effectiveness, we compared SaudiBERT with six different multidialect Arabic language models across 11 evaluation datasets, which are divided into two groups: sentiment analysis and text classification. SaudiBERT achieved average F1-scores of 86.15\% and 87.86\% in these groups respectively, significantly outperforming all other comparative models. Additionally, we present two novel Saudi dialectal corpora: the Saudi Tweets Mega Corpus (STMC), which contains over 141 million tweets in Saudi dialect, and the Saudi Forums Corpus (SFC), which includes 15.2 GB of text collected from five Saudi online forums. Both corpora are used in pretraining the proposed model, and they are the largest Saudi dialectal corpora ever reported in the literature. The results confirm the effectiveness of SaudiBERT in understanding and analyzing Arabic text expressed in Saudi dialect, achieving state-of-the-art results in most tasks and surpassing other language models included in the study. SaudiBERT model is publicly available on \url{https://huggingface.co/faisalq/SaudiBERT}.
- Abstract(参考訳): 本稿では,サウジ方言にのみ事前訓練された単言語アラビア語モデルであるSaudiBERTを紹介する。
本モデルの有効性を示すために,感性分析とテキスト分類の2つのグループに分けられる11つの評価データセットに対して,サウジアラビア語を6つの異なる多言語アラビア語モデルと比較した。
SaudiBERTは、これらのグループでそれぞれ86.15\%と87.86\%の平均F1スコアを達成した。
さらに、サウジアラビア方言の2つの新しいコーパスとして、サウジアラビア方言で1億1100万以上のツイートを含むサウジツイートメガコーパス(STMC)と、5つのサウジアラビアオンラインフォーラムから収集された15.2GBのテキストを含むサウジフォーラムコーパス(SFC)がある。
どちらのコーパスも提案されたモデルの事前訓練に使われており、サウジアラビアの方言コーパスとしては史上最大である。
その結果,サウジアラビア語方言で表現されたアラビア文字の理解と分析におけるサウジアラビア語の有効性が確認され,ほとんどのタスクにおいて最先端の結果が得られ,研究に含まれる他の言語モデルを上回った。
SaudiBERT モデルは \url{https://huggingface.co/faisalq/SaudiBERT} で公開されている。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks [19.403924294587043]
本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。
私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。
論文 参考訳(メタデータ) (2024-09-19T09:52:35Z) - EgyBERT: A Large Language Model Pretrained on Egyptian Dialect Corpora [0.0]
本研究は、エジプト方言の10.4GBのテキストで事前訓練されたアラビア語の言語モデルであるEgyBERTを提示する。
EgyBERTは平均F1スコア84.25%、精度87.33%を達成した。
本研究はエジプトの方言データセット上での各種言語モデルの性能を評価する最初の研究である。
論文 参考訳(メタデータ) (2024-08-07T03:23:55Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings [20.92135024440549]
最近導入されたバイアステストの適用により,アラビア語単語の埋め込みにおけるバイアスの広範な分析を行う。
埋め込みモデル(Skip-Gram,CBOW,FastText)やベクトルサイズなど,複数の次元にまたがるバイアスの存在を測定する。
我々の分析は、アラビア語のニュースコーパスで訓練された埋め込みにおける暗黙の性別バイアスが時間とともに着実に増加するという、いくつかの興味深い発見をもたらす。
論文 参考訳(メタデータ) (2020-11-03T09:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。