論文の概要: Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs
- arxiv url: http://arxiv.org/abs/2503.00151v1
- Date: Fri, 28 Feb 2025 19:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:25.462258
- Title: Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs
- Title(参考訳): Palm:アラビア語のLLMのための文化的に包括的で言語的に異なるデータセット
- Authors: Fakhraddin Alwajih, Abdellah El Mekki, Samar Mohamed Magdy, Abdelrahim A. Elmadany, Omer Nacar, El Moatez Billah Nagoudi, Reem Abdel-Salam, Hanin Atwany, Youssef Nafea, Abdulfattah Mohammed Yahya, Rahaf Alhamouri, Hamzah A. Alsayadi, Hiba Zayed, Sara Shatnawi, Serry Sibaee, Yasir Ech-Chammakhy, Walid Al-Dhabyani, Marwa Mohamed Ali, Imen Jarraya, Ahmed Oumar El-Shangiti, Aisha Alraeesi, Mohammed Anwar Al-Ghrawi, Abdulrahman S. Al-Batati, Elgizouli Mohamed, Noha Taha Elgindi, Muhammed Saeed, Houdaifa Atou, Issam Ait Yahia, Abdelhak Bouayad, Mohammed Machrouh, Amal Makouar, Dania Alkawi, Mukhtar Mohamed, Safaa Taher Abdelfadil, Amine Ziad Ounnoughene, Rouabhia Anfel, Rwaa Assi, Ahmed Sorkatti, Mohamedou Cheikh Tourad, Anis Koubaa, Ismail Berrada, Mustafa Jarrar, Shady Shehata, Muhammad Abdul-Mageed,
- Abstract要約: アラブ22カ国を対象とする1年間のコミュニティ主導プロジェクトであるデータセットを紹介します。
このデータセットには、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方の指示が含まれており、20種類のトピックにまたがっている。
我々は、いくつかのフロンティアLSMの文化的・弁証的能力を評価するためにデータセットを使用し、顕著な限界を明らかにした。
- 参考スコア(独自算出の注目度): 14.874327728051288
- License:
- Abstract: As large language models (LLMs) become increasingly integrated into daily life, ensuring their cultural sensitivity and inclusivity is paramount. We introduce our dataset, a year-long community-driven project covering all 22 Arab countries. The dataset includes instructions (input, response pairs) in both Modern Standard Arabic (MSA) and dialectal Arabic (DA), spanning 20 diverse topics. Built by a team of 44 researchers across the Arab world, all of whom are authors of this paper, our dataset offers a broad, inclusive perspective. We use our dataset to evaluate the cultural and dialectal capabilities of several frontier LLMs, revealing notable limitations. For instance, while closed-source LLMs generally exhibit strong performance, they are not without flaws, and smaller open-source models face greater challenges. Moreover, certain countries (e.g., Egypt, the UAE) appear better represented than others (e.g., Iraq, Mauritania, Yemen). Our annotation guidelines, code, and data for reproducibility are publicly available.
- Abstract(参考訳): 大きな言語モデル(LLM)が日々の生活に統合されるにつれて、その文化的感受性と傾向が最重要視される。
アラブ22カ国を対象とする1年間のコミュニティ主導プロジェクトであるデータセットを紹介します。
このデータセットには、モダンスタンダードアラビア(MSA)と方言アラビア(DA)の両方の指示(入力、応答ペア)が含まれており、20種類のトピックにまたがっている。
この論文の著者である、アラブ世界の44人の研究者チームによって構築されたデータセットは、幅広い包括的視点を提供する。
我々は、いくつかのフロンティアLSMの文化的・弁証的能力を評価するためにデータセットを使用し、顕著な限界を明らかにした。
例えば、クローズドソースのLLMは一般的に強いパフォーマンスを示すが、欠陥がないわけではなく、より小さなオープンソースモデルはより大きな課題に直面している。
さらに、一部の国(エジプト、アラブ首長国連邦など)は、他の国(イラク、モーリタニア、イエメンなど)よりも良く表現されている。
当社のアノテーションガイドライン,コード,再現性に関するデータなどが公開されています。
関連論文リスト
- Commonsense Reasoning in Arab Culture [6.116784716369165]
我々は,現代標準アラビア語(MSA)における常識推論データセットであるデータセットネームを導入し,メキシコ湾,レバント,北アフリカ,ナイルバレーの13カ国の文化をカバーした。
データセットは、ネイティブスピーカーがそれぞれの国で文化的に関連のある質問を書き、検証することで、ゼロから構築された。
データセット名は12の日常生活ドメインと54のきめ細かいサブトピックにまたがっており、社会規範、伝統、日々の経験の様々な側面を反映している。
論文 参考訳(メタデータ) (2025-02-18T11:49:54Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。