論文の概要: SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia
- arxiv url: http://arxiv.org/abs/2503.17485v1
- Date: Fri, 21 Mar 2025 18:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:24.004238
- Title: SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia
- Title(参考訳): サウジアラビアにおける大規模言語モデルの文化的能力評価のためのベンチマーク
- Authors: Lama Ayash, Hassan Alhuzali, Ashwag Alasmari, Sultan Aloufi,
- Abstract要約: この研究は、多様な方言と豊かな文化的伝統を特徴とするサウジアラビアに焦点を当てている。
大規模言語モデル(LLM)の文化的能力を評価するための新しいベンチマークであるSaudiCultureを紹介する。
このデータセットは、食べ物、衣服、エンターテイメント、祝祭、工芸品など、幅広い文化的領域を含んでいる。
- 参考スコア(独自算出の注目度): 0.1499944454332829
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language processing; however, they often struggle to accurately capture and reflect cultural nuances. This research addresses this challenge by focusing on Saudi Arabia, a country characterized by diverse dialects and rich cultural traditions. We introduce SaudiCulture, a novel benchmark designed to evaluate the cultural competence of LLMs within the distinct geographical and cultural contexts of Saudi Arabia. SaudiCulture is a comprehensive dataset of questions covering five major geographical regions, such as West, East, South, North, and Center, along with general questions applicable across all regions. The dataset encompasses a broad spectrum of cultural domains, including food, clothing, entertainment, celebrations, and crafts. To ensure a rigorous evaluation, SaudiCulture includes questions of varying complexity, such as open-ended, single-choice, and multiple-choice formats, with some requiring multiple correct answers. Additionally, the dataset distinguishes between common cultural knowledge and specialized regional aspects. We conduct extensive evaluations on five LLMs, such as GPT-4, Llama 3.3, FANAR, Jais, and AceGPT, analyzing their performance across different question types and cultural contexts. Our findings reveal that all models experience significant performance declines when faced with highly specialized or region-specific questions, particularly those requiring multiple correct responses. Additionally, certain cultural categories are more easily identifiable than others, further highlighting inconsistencies in LLMs cultural understanding. These results emphasize the importance of incorporating region-specific knowledge into LLMs training to enhance their cultural competence.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示してきたが、しばしば文化的ニュアンスを正確に捉え、反映するのに苦労する。
この研究は、多様な方言と豊かな文化的伝統を特徴とするサウジアラビアに焦点をあてることで、この課題に対処する。
本稿では,サウジアラビアの地理的・文化的文脈において,LLMの文化的能力を評価するための新しいベンチマークであるSaudiCultureを紹介する。
SaudiCultureは、西、東、南、北、中央の5つの主要地理的地域をカバーし、すべての地域に適用可能な一般的な質問の包括的なデータセットである。
このデータセットは、食べ物、衣服、エンターテイメント、祝祭、工芸品など、幅広い文化的領域を含んでいる。
厳密な評価を確保するために、SaudiCultureには、オープンエンド、シングルチョイス、マルチチョイスフォーマットなど、さまざまな複雑さに関する質問が含まれている。
さらに、データセットは共通の文化的知識と専門的な地域的側面を区別する。
GPT-4, Llama 3.3, FANAR, Jais, AceGPT の5つの LLM に対して, 様々な質問タイプや文化的文脈における評価を行った。
以上の結果から,高度に専門化された質問や地域固有の質問,特に複数の正しい回答を必要とする質問に対して,すべてのモデルが顕著な性能低下を経験していることが判明した。
さらに、ある文化カテゴリーは他のものよりも容易に識別でき、LLMの文化的理解の不整合をさらに強調している。
これらの結果は,地域固有の知識をLLM訓練に取り入れることの重要性を強調し,その文化的能力を高める。
関連論文リスト
- GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking [29.664707739055068]
GIMMICKは144か国にまたがる幅広い文化的知識を評価するために設計された広範囲なベンチマークである。
GIMMICKは、728のユニークな文化イベントやファセットにまたがる3つの新しいデータセット上に構築された6つのタスクで構成されている。
本研究では,(1)地域文化バイアス,(2)モデルサイズの影響,(3)入力モダリティ,(4)外部手がかりについて検討する。
論文 参考訳(メタデータ) (2025-02-19T14:27:40Z) - CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。