Fugu-MT 論文翻訳(概要): CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks

論文の概要: CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks

arxiv url: http://arxiv.org/abs/2409.12623v2
Date: Tue, 24 Sep 2024 08:49:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 14:08:12.868027
Title: CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks
Title（参考訳）: CamelEval: 文化的に規定されたアラビア語モデルとベンチマークの強化
Authors: Zhaozhi Qian, Faroq Altam, Muhammad Alqurishi, Riad Souissi,
Abstract要約: 本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。
参考スコア（独自算出の注目度）: 19.403924294587043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are the cornerstones of modern artificial intelligence systems. This paper introduces Juhaina, a Arabic-English bilingual LLM specifically designed to align with the values and preferences of Arabic speakers. Juhaina inherently supports advanced functionalities such as instruction following, open-ended question answering, information provisioning, and text processing. Our model contains 9.24 billion parameters and is trained on a context window of up to 8,192 tokens. This paper details the creation process of Juhaina and provides an extensive empirical evaluation. Furthermore, we identify the limitations of widely-adopted Open Arabic LLM Leaderboard (OALL) and propose a new evaluation benchmark, CamelEval. Our findings demonstrate that Juhaina surpasses existing LLMs of comparable sizes, such as the Llama and Gemma families, in generating helpful responses in Arabic, providing factually accurate information about the region, and understanding nuanced cultural aspects. We aspire for Juhaina to democratize cutting-edge AI technologies, serving over 400 million Arabic speakers by offering LLMs that not only communicate in their language but also comprehend their culture. We publicly release all models on Huggingface \url{https://huggingface.co/elmrc}.
Abstract（参考訳）: LLM(Large Language Models)は、現代の人工知能システムの基盤である。本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。 Juhainaは本質的に、命令フォロー、オープンな質問応答、情報提供、テキスト処理などの高度な機能をサポートしている。私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。本稿は、Juhainaの作成過程を詳述し、広範な実証的評価を提供する。さらに、広く採用されているOpen Arabic LLM Leaderboard(OALL)の限界を特定し、新しい評価ベンチマークであるCamelEvalを提案する。以上の結果から,ジュハイナは,ラマ族やジェマ族などと同等の大きさの既存のLLMを超越し,アラビア語で有用な応答を生成し,地域についての事実的正確な情報を提供し,文化的側面の理解を図った。私たちはJuhainaに、最先端のAI技術を民主化し、4億人以上のアラビア語話者に、彼らの言語でコミュニケーションするだけでなく、彼らの文化を理解するLLMを提供することを願っています。 Huggingface \url{https://huggingface.co/elmrc} ですべてのモデルを公開しています。

関連論文リスト

Absher: A Benchmark for Evaluating Large Language Models Understanding of Saudi Dialects [0.1499944454332829]
textttAbsherは6つの異なるカテゴリにまたがる18,000以上の多重選択質問で構成されている。これらの質問は、サウジアラビアの様々な地域から派生した方言の単語、フレーズ、証明のデータセットから導かれる。我々は,多言語およびアラビア語固有のモデルを含む,最先端のLLMを評価した。
論文参考訳（メタデータ） (2025-07-14T12:33:07Z)
Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs [14.874327728051288]
アラブ22カ国を対象とする1年間のコミュニティ主導プロジェクトであるデータセットを紹介します。このデータセットには、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方の指示が含まれており、20種類のトピックにまたがっている。我々は、いくつかのフロンティアLSMの文化的・弁証的能力を評価するためにデータセットを使用し、顕著な限界を明らかにした。
論文参考訳（メタデータ） (2025-02-28T19:59:13Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文参考訳（メタデータ） (2024-09-17T17:59:25Z)
ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-22T05:35:17Z)
YuLan: An Open-source Large Language Model [179.59272970659677]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文参考訳（メタデータ） (2024-06-28T11:52:53Z)
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks [29.819766942335416]
MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。我々は、強力なビジョンと言語能力を備えた、textitPeacockと呼ばれる、アラビア語のMLLMの包括的なファミリーを紹介する。
論文参考訳（メタデータ） (2024-03-01T23:38:02Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Arabic Mini-ClimateGPT : A Climate Change and Sustainability Tailored Arabic LLM [77.17254959695218]
ChatGPTやBardのような大規模言語モデル(LLM)は、優れた会話能力を示し、幅広いNLPタスクに優れています。我々は,オープンソースのLLM上に構築され,アラビア語データセットClima500-Instructの対話型命令チューニングに特化して微調整された軽量のアラビア語ミニクリメートGPTを提案する。本モデルは,ChatGPTによる評価において,88.3%の症例において,ベースラインLLMを上回った。
論文参考訳（メタデータ） (2023-12-14T22:04:07Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文参考訳（メタデータ） (2023-08-30T17:07:17Z)
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。 CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文参考訳（メタデータ） (2023-05-23T18:27:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。