論文の概要: ArabicDialectHub: A Cross-Dialectal Arabic Learning Resource and Platform
- arxiv url: http://arxiv.org/abs/2601.22987v1
- Date: Fri, 30 Jan 2026 13:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.484933
- Title: ArabicDialectHub: A Cross-Dialectal Arabic Learning Resource and Platform
- Title(参考訳): アラビア語DialectHub: クロスプラットフォームのアラビア語学習リソースとプラットフォーム
- Authors: Salem Lahlou,
- Abstract要約: 6種(モロッコ・ダリヤ・レバノン・シリア・エミラティ・サウジアラビア・MSA)にまたがる552句からなるアラビア語横断学習資料を提示する。
フレーズはLLMを用いて生成され、5つの母語話者によって検証され、難易度によって階層化され、主題的に整理された。
オープンソースのプラットフォームは、翻訳探索、アルゴリズムによるイントラクタ生成による適応的なクイズ、クラウド同期プログレストラッキング、文化的コンテキストを提供する。
- 参考スコア(独自算出の注目度): 4.435575392501805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ArabicDialectHub, a cross-dialectal Arabic learning resource comprising 552 phrases across six varieties (Moroccan Darija, Lebanese, Syrian, Emirati, Saudi, and MSA) and an interactive web platform. Phrases were generated using LLMs and validated by five native speakers, stratified by difficulty, and organized thematically. The open-source platform provides translation exploration, adaptive quizzing with algorithmic distractor generation, cloud-synchronized progress tracking, and cultural context. Both the dataset and complete platform source code are released under MIT license. Platform: https://arabic-dialect-hub.netlify.app.
- Abstract(参考訳): アラビアディアレクトHubは6種(モロッカ・ダリヤ、レバノン、シリア、エミラティ、サウジ、MSA)にまたがる552のフレーズからなるアラビア語横断学習リソースであり、対話型Webプラットフォームである。
フレーズはLLMを用いて生成され、5つの母語話者によって検証され、難易度によって階層化され、主題的に整理された。
オープンソースのプラットフォームは、翻訳探索、アルゴリズムによるイントラクタ生成による適応的なクイズ、クラウド同期プログレストラッキング、文化的コンテキストを提供する。
データセットと完全なプラットフォームソースコードはMITライセンス下でリリースされている。
プラットフォーム:https://arabic-dialect-hub.netlify.app.com
関連論文リスト
- Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。
幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。
本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文 参考訳(メタデータ) (2025-04-30T09:56:36Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs [1.6381055567716192]
本稿では,機械翻訳(MT)と自動音声認識(ASR)システムの複雑さについて検討する。
我々は、コード変更されたエジプトのアラビア語を英語またはエジプトのアラビア語に翻訳することに重点を置いている。
本稿では,LLama や Gemma などの大規模言語モデルを用いて,これらのシステムの開発に使用される手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T07:19:51Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media [5.2957928879391]
本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。
その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-21T14:58:50Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。