論文の概要: CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks
- arxiv url: http://arxiv.org/abs/2409.12623v2
- Date: Tue, 24 Sep 2024 08:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:08:12.868027
- Title: CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks
- Title(参考訳): CamelEval: 文化的に規定されたアラビア語モデルとベンチマークの強化
- Authors: Zhaozhi Qian, Faroq Altam, Muhammad Alqurishi, Riad Souissi,
- Abstract要約: 本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。
私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。
- 参考スコア(独自算出の注目度): 19.403924294587043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are the cornerstones of modern artificial intelligence systems. This paper introduces Juhaina, a Arabic-English bilingual LLM specifically designed to align with the values and preferences of Arabic speakers. Juhaina inherently supports advanced functionalities such as instruction following, open-ended question answering, information provisioning, and text processing. Our model contains 9.24 billion parameters and is trained on a context window of up to 8,192 tokens. This paper details the creation process of Juhaina and provides an extensive empirical evaluation. Furthermore, we identify the limitations of widely-adopted Open Arabic LLM Leaderboard (OALL) and propose a new evaluation benchmark, CamelEval. Our findings demonstrate that Juhaina surpasses existing LLMs of comparable sizes, such as the Llama and Gemma families, in generating helpful responses in Arabic, providing factually accurate information about the region, and understanding nuanced cultural aspects. We aspire for Juhaina to democratize cutting-edge AI technologies, serving over 400 million Arabic speakers by offering LLMs that not only communicate in their language but also comprehend their culture. We publicly release all models on Huggingface \url{https://huggingface.co/elmrc}.
- Abstract(参考訳): LLM(Large Language Models)は、現代の人工知能システムの基盤である。
本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。
Juhainaは本質的に、命令フォロー、オープンな質問応答、情報提供、テキスト処理などの高度な機能をサポートしている。
私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。
本稿は、Juhainaの作成過程を詳述し、広範な実証的評価を提供する。
さらに、広く採用されているOpen Arabic LLM Leaderboard(OALL)の限界を特定し、新しい評価ベンチマークであるCamelEvalを提案する。
以上の結果から,ジュハイナは,ラマ族やジェマ族などと同等の大きさの既存のLLMを超越し,アラビア語で有用な応答を生成し,地域についての事実的正確な情報を提供し,文化的側面の理解を図った。
私たちはJuhainaに、最先端のAI技術を民主化し、4億人以上のアラビア語話者に、彼らの言語でコミュニケーションするだけでなく、彼らの文化を理解するLLMを提供することを願っています。
Huggingface \url{https://huggingface.co/elmrc} ですべてのモデルを公開しています。
関連論文リスト
- AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - YuLan: An Open-source Large Language Model [179.59272970659677]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。
YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。
これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文 参考訳(メタデータ) (2024-06-28T11:52:53Z) - Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks [29.819766942335416]
MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。
我々は、強力なビジョンと言語能力を備えた、textitPeacockと呼ばれる、アラビア語のMLLMの包括的なファミリーを紹介する。
論文 参考訳(メタデータ) (2024-03-01T23:38:02Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Arabic Mini-ClimateGPT : A Climate Change and Sustainability Tailored
Arabic LLM [77.17254959695218]
ChatGPTやBardのような大規模言語モデル(LLM)は、優れた会話能力を示し、幅広いNLPタスクに優れています。
我々は,オープンソースのLLM上に構築され,アラビア語データセットClima500-Instructの対話型命令チューニングに特化して微調整された軽量のアラビア語ミニクリメートGPTを提案する。
本モデルは,ChatGPTによる評価において,88.3%の症例において,ベースラインLLMを上回った。
論文 参考訳(メタデータ) (2023-12-14T22:04:07Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。