論文の概要: AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs
- arxiv url: http://arxiv.org/abs/2409.11404v3
- Date: Tue, 17 Dec 2024 21:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:57.408035
- Title: AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs
- Title(参考訳): AraDiCE:LLMにおける方言と文化能力のベンチマーク
- Authors: Basel Mousi, Nadir Durrani, Fatema Ahmad, Md. Arid Hasan, Maram Hasanain, Tameem Kabbani, Fahim Dalvi, Shammur Absar Chowdhury, Firoj Alam,
- Abstract要約: 本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
- 参考スコア(独自算出の注目度): 22.121471902726892
- License:
- Abstract: Arabic, with its rich diversity of dialects, remains significantly underrepresented in Large Language Models, particularly in dialectal variations. We address this gap by introducing seven synthetic datasets in dialects alongside Modern Standard Arabic (MSA), created using Machine Translation (MT) combined with human post-editing. We present AraDiCE, a benchmark for Arabic Dialect and Cultural Evaluation. We evaluate LLMs on dialect comprehension and generation, focusing specifically on low-resource Arabic dialects. Additionally, we introduce the first-ever fine-grained benchmark designed to evaluate cultural awareness across the Gulf, Egypt, and Levant regions, providing a novel dimension to LLM evaluation. Our findings demonstrate that while Arabic-specific models like Jais and AceGPT outperform multilingual models on dialectal tasks, significant challenges persist in dialect identification, generation, and translation. This work contributes $\approx$45K post-edited samples, a cultural benchmark, and highlights the importance of tailored training to improve LLM performance in capturing the nuances of diverse Arabic dialects and cultural contexts. We have released the dialectal translation models and benchmarks developed in this study (https://huggingface.co/datasets/QCRI/AraDiCE).
- Abstract(参考訳): 方言の多様性が豊富にあるアラビア語は、大きな言語モデル、特に方言の変種において顕著に不足している。
我々は、機械翻訳(MT)と人間の後編集を組み合わせて作成した現代標準アラビア語(MSA)とともに、方言に7つの合成データセットを導入することで、このギャップに対処する。
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
我々は、低資源アラビア語方言を中心に、方言理解と生成に関するLLMを評価した。
さらに,湾岸地域,エジプト地域,レバント地域の文化意識を評価するために設計された,初となるきめ細かいベンチマークを導入し,LCMの評価に新たな次元を提供する。
以上の結果から,Jais や AceGPT のようなアラビア語固有のモデルは,方言課題における多言語モデルよりも優れているが,方言の識別,生成,翻訳において重要な課題が持続していることが示唆された。
この研究は、$\approx$45Kの後編集サンプル、文化ベンチマークに貢献し、様々なアラビア方言や文化的文脈のニュアンスを捉える上で、LLMのパフォーマンスを改善するための調整されたトレーニングの重要性を強調している。
本研究で開発された方言翻訳モデルとベンチマーク(https://huggingface.co/datasets/QCRI/AraDiCE)をリリースした。
関連論文リスト
- On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena [10.263201685476492]
本稿では,言語モデル(LM)におけるエンティティ関連文化バイアスの起源を明らかにすることを目的とする。
アラビア文化や西洋文化に関連する58,086のエンティティと367の自然文脈をマスキングしたエンティティのアラビア・英語の並列ベンチマークであるCAMeL-2を紹介する。
CAMeL-2を用いた評価では、アラビア語と比較して英語で試験すると、LMによる文化間のパフォーマンスギャップが減少することがわかった。
論文 参考訳(メタデータ) (2025-01-08T18:15:47Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。