論文の概要: Absher: A Benchmark for Evaluating Large Language Models Understanding of Saudi Dialects
- arxiv url: http://arxiv.org/abs/2507.10216v1
- Date: Mon, 14 Jul 2025 12:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.870651
- Title: Absher: A Benchmark for Evaluating Large Language Models Understanding of Saudi Dialects
- Title(参考訳): Absher: サウジアラビアの方言を理解するための大規模言語モデルの評価ベンチマーク
- Authors: Renad Al-Monef, Hassan Alhuzali, Nora Alturayeif, Ashwag Alasmari,
- Abstract要約: textttAbsherは6つの異なるカテゴリにまたがる18,000以上の多重選択質問で構成されている。
これらの質問は、サウジアラビアの様々な地域から派生した方言の単語、フレーズ、証明のデータセットから導かれる。
我々は,多言語およびアラビア語固有のモデルを含む,最先端のLLMを評価した。
- 参考スコア(独自算出の注目度): 0.1499944454332829
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) become increasingly central to Arabic NLP applications, evaluating their understanding of regional dialects and cultural nuances is essential, particularly in linguistically diverse settings like Saudi Arabia. This paper introduces \texttt{Absher}, a comprehensive benchmark specifically designed to assess LLMs performance across major Saudi dialects. \texttt{Absher} comprises over 18,000 multiple-choice questions spanning six distinct categories: Meaning, True/False, Fill-in-the-Blank, Contextual Usage, Cultural Interpretation, and Location Recognition. These questions are derived from a curated dataset of dialectal words, phrases, and proverbs sourced from various regions of Saudi Arabia. We evaluate several state-of-the-art LLMs, including multilingual and Arabic-specific models. We also provide detailed insights into their capabilities and limitations. Our results reveal notable performance gaps, particularly in tasks requiring cultural inference or contextual understanding. Our findings highlight the urgent need for dialect-aware training and culturally aligned evaluation methodologies to improve LLMs performance in real-world Arabic applications.
- Abstract(参考訳): 大型言語モデル(LLM)がアラビア語のNLP適用の中心となるにつれて、特にサウジアラビアのような言語学的に多様な状況において、地域方言や文化的ニュアンスに対する理解を評価することが不可欠である。
本稿では,サウジアラビアの主要方言におけるLLMの性能を評価するための総合的なベンチマークであるtexttt{Absher}を紹介する。
\texttt{Absher} は、意味、真/偽、ブランクの埋め合わせ、文脈利用、文化解釈、位置認識の6つの異なるカテゴリにまたがる18,000以上の多重選択の質問からなる。
これらの質問は、サウジアラビアの様々な地域から派生した方言の単語、フレーズ、証明のデータセットから導かれる。
我々は,多言語およびアラビア語固有のモデルを含む,最先端のLLMを評価した。
また、その機能と制限に関する詳細な洞察も提供します。
以上の結果から,特に文化的推測や文脈的理解を必要とするタスクにおいて,顕著なパフォーマンスギャップが明らかとなった。
本研究は, 実世界のアラビア語アプリケーションにおいて, LLMの性能を向上させるために, 方言学習と文化的に整合した評価手法の急激なニーズを浮き彫りにしたものである。
関連論文リスト
- MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia [0.1499944454332829]
この研究は、多様な方言と豊かな文化的伝統を特徴とするサウジアラビアに焦点を当てている。
大規模言語モデル(LLM)の文化的能力を評価するための新しいベンチマークであるSaudiCultureを紹介する。
このデータセットは、食べ物、衣服、エンターテイメント、祝祭、工芸品など、幅広い文化的領域を含んでいる。
論文 参考訳(メタデータ) (2025-03-21T18:55:10Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。