論文の概要: NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
- arxiv url: http://arxiv.org/abs/2505.18383v1
- Date: Fri, 23 May 2025 21:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.383694
- Title: NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
- Title(参考訳): NileChat: 地域社会のための言語的多様性と文化的なLLMを目指して
- Authors: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed,
- Abstract要約: 本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。
我々はエジプト語とモロッコ語の方言をテストベッドとして使用し、言語的・文化的豊かさから選択した方法論を実証した。
我々はエジプトとモロッコのコミュニティに適応した3BパラメータであるNileChatを開発し、それらの言語、文化遺産、価値観を取り入れた。
- 参考スコア(独自算出の注目度): 12.891810941315503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing the linguistic capabilities of Large Language Models (LLMs) to include low-resource languages is a critical research area. Current research directions predominantly rely on synthetic data generated by translating English corpora, which, while demonstrating promising linguistic understanding and translation abilities, often results in models aligned with source language culture. These models frequently fail to represent the cultural heritage and values of local communities. This work proposes a methodology to create both synthetic and retrieval-based pre-training data tailored to a specific community, considering its (i) language, (ii) cultural heritage, and (iii) cultural values. We demonstrate our methodology using Egyptian and Moroccan dialects as testbeds, chosen for their linguistic and cultural richness and current underrepresentation in LLMs. As a proof-of-concept, we develop NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities, incorporating their language, cultural heritage, and values. Our results on various understanding, translation, and cultural and values alignment benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar size and performs on par with larger models. We share our methods, data, and models with the community to promote the inclusion and coverage of more diverse communities in LLM development.
- Abstract(参考訳): LLM(Large Language Models)の言語能力を低リソース言語に拡張することは、重要な研究分野である。
現在の研究の方向性は、英語コーパスの翻訳によって生成された合成データに大きく依存している。
これらのモデルは、地域社会の文化的遺産や価値観を表わさないことが多い。
本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。
(i)言語
(二)文化財、及び
(三)文化的価値。
我々は,エジプト語とモロッコ語の方言をテストベッドとして使用し,言語的・文化的豊かさとLLMの表現不足から選択した方法論を実証した。
概念実証として,エジプトとモロッコのコミュニティに適応した3BパラメータLLMであるNileChatを開発し,それらの言語,文化遺産,価値観を取り入れた。
さまざまな理解,翻訳,文化的価値のアライメントベンチマークの結果から,NileChatはアラビア認識のLLMを同等の大きさで上回り,より大きなモデルに匹敵する性能を示した。
我々は,LLM開発におけるより多様なコミュニティの包摂と包摂を促進するため,我々の手法,データ,モデルをコミュニティと共有する。
関連論文リスト
- Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Exploring Large Language Models on Cross-Cultural Values in Connection with Training Methodology [4.079147243688765]
大規模言語モデル(LLM)は人間と密接に相互作用し、人間の社会の文化的価値を深く理解する必要がある。
分析の結果,LLMは人間に類似した社会文化的規範を判断できるが,社会システムや進歩には影響しないことが明らかとなった。
モデルサイズの増加は、社会的価値をよりよく理解するのに役立つが、より小さなモデルは、合成データを使用することで強化することができる。
論文 参考訳(メタデータ) (2024-12-12T00:52:11Z) - Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。
文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文 参考訳(メタデータ) (2024-10-30T16:37:50Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。