Fugu-MT 論文翻訳(概要): NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

論文の概要: NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

arxiv url: http://arxiv.org/abs/2505.18383v1
Date: Fri, 23 May 2025 21:18:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.383694
Title: NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
Title（参考訳）: NileChat: 地域社会のための言語的多様性と文化的なLLMを目指して
Authors: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed,
Abstract要約: 本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。我々はエジプト語とモロッコ語の方言をテストベッドとして使用し、言語的・文化的豊かさから選択した方法論を実証した。我々はエジプトとモロッコのコミュニティに適応した3BパラメータであるNileChatを開発し、それらの言語、文化遺産、価値観を取り入れた。
参考スコア（独自算出の注目度）: 12.891810941315503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enhancing the linguistic capabilities of Large Language Models (LLMs) to include low-resource languages is a critical research area. Current research directions predominantly rely on synthetic data generated by translating English corpora, which, while demonstrating promising linguistic understanding and translation abilities, often results in models aligned with source language culture. These models frequently fail to represent the cultural heritage and values of local communities. This work proposes a methodology to create both synthetic and retrieval-based pre-training data tailored to a specific community, considering its (i) language, (ii) cultural heritage, and (iii) cultural values. We demonstrate our methodology using Egyptian and Moroccan dialects as testbeds, chosen for their linguistic and cultural richness and current underrepresentation in LLMs. As a proof-of-concept, we develop NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities, incorporating their language, cultural heritage, and values. Our results on various understanding, translation, and cultural and values alignment benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar size and performs on par with larger models. We share our methods, data, and models with the community to promote the inclusion and coverage of more diverse communities in LLM development.
Abstract（参考訳）: LLM(Large Language Models)の言語能力を低リソース言語に拡張することは、重要な研究分野である。現在の研究の方向性は、英語コーパスの翻訳によって生成された合成データに大きく依存している。これらのモデルは、地域社会の文化的遺産や価値観を表わさないことが多い。本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。 (i)言語 (二)文化財、及び (三)文化的価値。我々は,エジプト語とモロッコ語の方言をテストベッドとして使用し,言語的・文化的豊かさとLLMの表現不足から選択した方法論を実証した。概念実証として,エジプトとモロッコのコミュニティに適応した3BパラメータLLMであるNileChatを開発し,それらの言語,文化遺産,価値観を取り入れた。さまざまな理解,翻訳,文化的価値のアライメントベンチマークの結果から,NileChatはアラビア認識のLLMを同等の大きさで上回り,より大きなモデルに匹敵する性能を示した。我々は,LLM開発におけるより多様なコミュニティの包摂と包摂を促進するため,我々の手法,データ,モデルをコミュニティと共有する。

関連論文リスト

MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文参考訳（メタデータ） (2025-05-27T19:29:40Z)
Localized Cultural Knowledge is Conserved and Controllable in Large Language Models [20.411764699679058]
文化的な文脈を明示的に提供することで、モデルが文化的に局所的な応答を生成できる能力が大幅に向上することを示す。しかし、明確な促進効果にもかかわらず、答えは多様性を減らし、ステレオタイプに傾向がある。我々は、すべての非英語言語にまたがって保存された明示的な文化的カスタマイズベクターを特定し、LLMを合成英語文化世界モデルから、各非英語文化世界に向けて操ることを可能にする。
論文参考訳（メタデータ） (2025-04-14T12:53:58Z)
Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文参考訳（メタデータ） (2025-04-03T18:16:26Z)
Exploring Large Language Models on Cross-Cultural Values in Connection with Training Methodology [4.079147243688765]
大規模言語モデル(LLM)は人間と密接に相互作用し、人間の社会の文化的価値を深く理解する必要がある。分析の結果,LLMは人間に類似した社会文化的規範を判断できるが,社会システムや進歩には影響しないことが明らかとなった。モデルサイズの増加は、社会的価値をよりよく理解するのに役立つが、より小さなモデルは、合成データを使用することで強化することができる。
論文参考訳（メタデータ） (2024-12-12T00:52:11Z)
Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文参考訳（メタデータ） (2024-10-30T16:37:50Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文参考訳（メタデータ） (2024-04-10T08:49:27Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。