論文の概要: Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2506.19753v2
- Date: Sat, 28 Jun 2025 12:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 13:01:42.719226
- Title: Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis
- Title(参考訳): RNN, トランスフォーマー, 大規模言語モデルを用いたアラビア方言の分類:比較分析
- Authors: Omar A. Essameldin, Ali O. Elbeih, Wael H. Gomaa, Wael F. Elsersy,
- Abstract要約: アラビア語は世界でも最も人気のある言語の一つであり、22か国で話される方言が多種多様である。
本研究では、アラビア語のツイートのQADIデータセットの18のアラビア方言を分類する問題に対処する。
このうち、MARBERTv2は65%の精度、64%のF1スコアで最高の成績を収めた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Arabic language is among the most popular languages in the world with a huge variety of dialects spoken in 22 countries. In this study, we address the problem of classifying 18 Arabic dialects of the QADI dataset of Arabic tweets. RNN models, Transformer models, and large language models (LLMs) via prompt engineering are created and tested. Among these, MARBERTv2 performed best with 65% accuracy and 64% F1-score. Through the use of state-of-the-art preprocessing techniques and the latest NLP models, this paper identifies the most significant linguistic issues in Arabic dialect identification. The results corroborate applications like personalized chatbots that respond in users' dialects, social media monitoring, and greater accessibility for Arabic communities.
- Abstract(参考訳): アラビア語は世界でも最も人気のある言語の一つであり、22か国で話される方言が多種多様である。
本研究では、アラビア語のツイートのQADIデータセットの18のアラビア方言を分類する問題に対処する。
RNNモデル、トランスフォーマーモデル、そしてプロンプトエンジニアリングによる大規模言語モデル(LLM)が作成され、テストされる。
このうち、MARBERTv2は65%の精度、64%のF1スコアで最高の成績を収めた。
本稿では,最先端の事前処理技術と最新のNLPモデルを用いて,アラビア方言の識別において最も重要な言語的問題を明らかにする。
結果は、ユーザの方言に反応するパーソナライズされたチャットボット、ソーシャルメディアの監視、アラビア語コミュニティへのアクセシビリティ向上などのアプリケーションと相関する。
関連論文リスト
- Large Language Models and Arabic Content: A Review [0.0]
本研究は,アラビア語に対する大規模言語モデル (LLM) の利用について概説する。
様々なNLPアプリケーションにまたがる、初期の訓練済みのアラビア語モデルを強調している。
また、ファインチューニングやプロンプトエンジニアリングのような技術がこれらのモデルの性能を高める方法の概要も提供する。
論文 参考訳(メタデータ) (2025-05-12T19:09:12Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks [17.5987429821102]
スワン(Swan)は、アラビア語を中心にした埋め込みモデルのファミリーである。
2つの変種: Swan-SmallはArBERTv2をベースとしており、Swan-Largeはアラビア語で事前訓練された大言語モデルであるArMistralをベースとしている。
論文 参考訳(メタデータ) (2024-11-02T09:39:49Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。