論文の概要: PalmX 2025: The First Shared Task on Benchmarking LLMs on Arabic and Islamic Culture
- arxiv url: http://arxiv.org/abs/2509.02550v1
- Date: Tue, 02 Sep 2025 17:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.13385
- Title: PalmX 2025: The First Shared Task on Benchmarking LLMs on Arabic and Islamic Culture
- Title(参考訳): PalmX 2025: アラビア語とイスラム文化に関するLLMのベンチマークに関する最初の共有タスク
- Authors: Fakhraddin Alwajih, Abdellah El Mekki, Hamdy Mubarak, Majd Hawasly, Abubakr Mohamed, Muhammad Abdul-Mageed,
- Abstract要約: PalmX 2025は、アラビア語とイスラム文化における大規模言語モデル(LLM)の文化的能力を評価するために設計された最初のタスクである。
タスクは、現代標準アラビア語(MSA)における複数の選択質問(MCQ)を含む2つのサブタスクで構成されている。
最高成績のチームは文化的問題で72.15%、イスラム知識で84.22%の精度を達成した。
- 参考スコア(独自算出の注目度): 30.595844336001004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) inherently reflect the vast data distributions they encounter during their pre-training phase. As this data is predominantly sourced from the web, there is a high chance it will be skewed towards high-resourced languages and cultures, such as those of the West. Consequently, LLMs often exhibit a diminished understanding of certain communities, a gap that is particularly evident in their knowledge of Arabic and Islamic cultures. This issue becomes even more pronounced with increasingly under-represented topics. To address this critical challenge, we introduce PalmX 2025, the first shared task designed to benchmark the cultural competence of LLMs in these specific domains. The task is composed of two subtasks featuring multiple-choice questions (MCQs) in Modern Standard Arabic (MSA): General Arabic Culture and General Islamic Culture. These subtasks cover a wide range of topics, including traditions, food, history, religious practices, and language expressions from across 22 Arab countries. The initiative drew considerable interest, with 26 teams registering for Subtask 1 and 19 for Subtask 2, culminating in nine and six valid submissions, respectively. Our findings reveal that task-specific fine-tuning substantially boosts performance over baseline models. The top-performing systems achieved an accuracy of 72.15% on cultural questions and 84.22% on Islamic knowledge. Parameter-efficient fine-tuning emerged as the predominant and most effective approach among participants, while the utility of data augmentation was found to be domain-dependent.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練前の段階で遭遇する膨大なデータ分布を本質的に反映する。
このデータが主にWebから供給されているため、欧米の言語や文化など、高リソースの言語に浸透する可能性は高い。
その結果、LLMは特定のコミュニティに対する理解の低下をしばしば示しており、アラビア語やイスラム文化の知識において特に顕著なギャップである。
この問題はさらに強調され、あまり表現されていないトピックが増えている。
この重要な課題に対処するために、これらの特定の領域におけるLLMの文化的能力を評価するために設計された最初の共有タスクであるPalmX 2025を紹介する。
タスクは、現代標準アラビア語(MSA)における複数の選択質問(MCQ)を含む2つのサブタスクで構成されている。
これらのサブタスクは、伝統、食べ物、歴史、宗教の実践、および22のアラブ諸国の言語表現など、幅広いトピックをカバーしている。
このイニシアチブは大きな関心を集め、26チームがSubtask 1に、19チームがSubtask 2に登録し、それぞれ9か6か国から応募した。
その結果,タスク固有の微調整はベースラインモデルよりも性能を大幅に向上させることがわかった。
最高性能のシステムは、文化的問題で72.15%、イスラム知識で84.22%の精度を達成した。
パラメータ効率の高い微調整は,データ拡張の有効性はドメイン依存であることが判明した。
関連論文リスト
- Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs [14.874327728051288]
アラブ22カ国を対象とする1年間のコミュニティ主導プロジェクトであるデータセットを紹介します。
このデータセットには、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方の指示が含まれており、20種類のトピックにまたがっている。
我々は、いくつかのフロンティアLSMの文化的・弁証的能力を評価するためにデータセットを使用し、顕著な限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-28T19:59:13Z) - LlamaLens: Specialized Multilingual LLM for Analyzing News and Social Media Content [9.539308087147134]
大規模言語モデル(LLM)は、様々な分野にわたる汎用タスクソルバとして顕著な成功を収めている。
本研究では,LlamaLens という特殊な LLM を開発し,多言語でニュースやソーシャルメディアのコンテンツを分析することに焦点を当てた。
LlamaLensは23個のテストセットで現在のSOTA(State-of-the-art)よりも優れ、8つのテストセットで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-20T06:37:37Z) - CulturalBench: A Robust, Diverse, and Challenging Cultural Benchmark by Human-AI CulturalTeaming [75.82306181299153]
カルチャーベンチ(CulturalBench)は、LMの文化的知識を評価するための1,696の人文・人文的な質問である。
バングラデシュ、ジンバブエ、ペルーなど45の地域をカバーしている。
我々はHuman-AI Red-Teamingにインスパイアされた手法を用いてCulturalBenchを構築した。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。