論文の概要: BALSAM: A Platform for Benchmarking Arabic Large Language Models
- arxiv url: http://arxiv.org/abs/2507.22603v1
- Date: Wed, 30 Jul 2025 12:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.177443
- Title: BALSAM: A Platform for Benchmarking Arabic Large Language Models
- Title(参考訳): BALSAM:アラビア語の大規模言語モデルをベンチマークするプラットフォーム
- Authors: Rawan Al-Matham, Kareem Darwish, Raghad Al-Rasheed, Waad Alshammari, Muneera Alhoshan, Amal Almazrua, Asma Al Wazrah, Mais Alheraki, Firoj Alam, Preslav Nakov, Norah Alzahrani, Eman alBilali, Nizar Habash, Abdelrahman El-Sheikh, Muhammad Elmallah, Haonan Li, Hamdy Mubarak, Mohamed Anwar, Zaid Alyafeai, Ahmed Abdelali, Nora Altwairesh, Maram Hasanain, Abdulmohsen Al Thubaity, Shady Shehata, Bashar Alhafni, Injy Hamed, Go Inoue, Khalid Elmadani, Ossama Obeid, Fatima Haouari, Tamer Elsayed, Emad Alghamdi, Khalid Almubarak, Saied Alshahrani, Ola Aljarrah, Safa Alajlan, Areej Alshaqarawi, Maryam Alshihri, Sultana Alghurabi, Atikah Alzeghayer, Afrah Altamimi, Abdullah Alfaifi, Abdulrahman AlOsaimy,
- Abstract要約: BALSAMは、アラビア語のLLM開発と評価を進めることを目的とした総合的なコミュニティ主導のベンチマークである。
14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
- 参考スコア(独自算出の注目度): 34.50348949235453
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The impressive advancement of Large Language Models (LLMs) in English has not been matched across all languages. In particular, LLM performance in Arabic lags behind, due to data scarcity, linguistic diversity of Arabic and its dialects, morphological complexity, etc. Progress is further hindered by the quality of Arabic benchmarks, which typically rely on static, publicly available data, lack comprehensive task coverage, or do not provide dedicated platforms with blind test sets. This makes it challenging to measure actual progress and to mitigate data contamination. Here, we aim to bridge these gaps. In particular, we introduce BALSAM, a comprehensive, community-driven benchmark aimed at advancing Arabic LLM development and evaluation. It includes 78 NLP tasks from 14 broad categories, with 52K examples divided into 37K test and 15K development, and a centralized, transparent platform for blind evaluation. We envision BALSAM as a unifying platform that sets standards and promotes collaborative research to advance Arabic LLM capabilities.
- Abstract(参考訳): 英語におけるLLM(Large Language Models)の印象的な進歩は、すべての言語で一致していない。
特に、データの不足、アラビア語とその方言の言語的多様性、形態的複雑さなどにより、アラビア語のラグにおけるLLMのパフォーマンスは遅れている。
アラビア語のベンチマークは、一般的に静的な公開データに依存し、包括的なタスクカバレッジが欠如している。
これにより、実際の進捗を計測し、データの汚染を軽減することが困難になる。
ここでは、これらのギャップを埋めることを目指しています。
特に,アラビア語 LLM 開発と評価の進展を目的とした総合的,コミュニティ主導のベンチマークである BALSAM を紹介する。
14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
我々は、BALSAMを標準を設定し、アラビアのLLM能力を向上させるための共同研究を促進する統一プラットフォームとして構想する。
関連論文リスト
- AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文 参考訳(メタデータ) (2022-12-21T04:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。