論文の概要: SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian Culture
- arxiv url: http://arxiv.org/abs/2506.15355v1
- Date: Wed, 18 Jun 2025 11:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.637674
- Title: SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian Culture
- Title(参考訳): SANSKRITI: 言語モデルによるインド文化の知識評価のための総合ベンチマーク
- Authors: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Sriparna Saha,
- Abstract要約: インドにおける豊かな文化的多様性に関する言語モデルの理解を評価するためのベンチマークであるSANSKRITIを紹介する。
SNSKRITIは、28の州と8の連邦領域にまたがる、精巧にキュレートされた質問応答ペア21,853からなり、インドの文化知識をテストするための最大のデータセットである。
儀式、儀式、歴史、観光、料理、ダンス、音楽、衣装、言語、芸術、祭典、宗教、医学、輸送、スポーツ、ナイトライフ、個性など、インド文化の重要な特徴を網羅している。
- 参考スコア(独自算出の注目度): 12.154844759836113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) are indispensable tools shaping modern workflows, but their global effectiveness depends on understanding local socio-cultural contexts. To address this, we introduce SANSKRITI, a benchmark designed to evaluate language models' comprehension of India's rich cultural diversity. Comprising 21,853 meticulously curated question-answer pairs spanning 28 states and 8 union territories, SANSKRITI is the largest dataset for testing Indian cultural knowledge. It covers sixteen key attributes of Indian culture: rituals and ceremonies, history, tourism, cuisine, dance and music, costume, language, art, festivals, religion, medicine, transport, sports, nightlife, and personalities, providing a comprehensive representation of India's cultural tapestry. We evaluate SANSKRITI on leading Large Language Models (LLMs), Indic Language Models (ILMs), and Small Language Models (SLMs), revealing significant disparities in their ability to handle culturally nuanced queries, with many models struggling in region-specific contexts. By offering an extensive, culturally rich, and diverse dataset, SANSKRITI sets a new standard for assessing and improving the cultural understanding of LMs.
- Abstract(参考訳): 言語モデル(LM)は、現代のワークフローを形成するために必要なツールであるが、そのグローバルな効果は、地域社会文化の文脈を理解することに依存している。
そこで本研究では,インドの豊かな文化多様性に対する言語モデルの理解度を評価するためのベンチマークであるSANSKRITIを紹介する。
SNSKRITIは、28の州と8の連邦領域にまたがる、精巧にキュレートされた質問応答ペア21,853からなり、インドの文化知識をテストするための最大のデータセットである。
儀式、儀式、歴史、観光、料理、ダンス、音楽、衣装、言語、芸術、祭典、宗教、医学、輸送、スポーツ、ナイトライフ、個性など、インド文化の重要な特徴を網羅し、インドの文化的タペストリーを包括的に表現している。
我々は,先進言語モデル (LLMs) , 言語モデル (ILMs) , 小言語モデル (SLMs) についてSANSKRITIを評価し, 地域特有の文脈において多くのモデルが苦戦している,文化的にニュアンスなクエリを扱う能力の相違点を明らかにした。
広範囲で文化的に豊かな多様なデータセットを提供することにより、SANSKRITIはLMの文化的理解を評価し改善するための新しい標準を設定している。
関連論文リスト
- MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。