論文の概要: BLUCK: A Benchmark Dataset for Bengali Linguistic Understanding and Cultural Knowledge
- arxiv url: http://arxiv.org/abs/2505.21092v1
- Date: Tue, 27 May 2025 12:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.634668
- Title: BLUCK: A Benchmark Dataset for Bengali Linguistic Understanding and Cultural Knowledge
- Title(参考訳): BLUCK:ベンガル語の言語理解と文化知識のためのベンチマークデータセット
- Authors: Daeen Kabir, Minhajur Rahman Chowdhury Mahim, Sheikh Shafayat, Adnan Sadik, Arian Ahmed, Eunsu Kim, Alice Oh,
- Abstract要約: BLUCKはベンガルの言語理解と文化知識における大規模言語モデル(LLM)の性能を測定するために設計された新しいデータセットである。
私たちのデータセットは、2366の多重選択質問(MCQ)で構成されています。
GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.3-70B-Instruct、DeepSeekV3を含む6つのプロプライエタリおよび3つのオープンソースLCMを用いてBLUCKをベンチマークした。
- 参考スコア(独自算出の注目度): 11.447710593895831
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we introduce BLUCK, a new dataset designed to measure the performance of Large Language Models (LLMs) in Bengali linguistic understanding and cultural knowledge. Our dataset comprises 2366 multiple-choice questions (MCQs) carefully curated from compiled collections of several college and job level examinations and spans 23 categories covering knowledge on Bangladesh's culture and history and Bengali linguistics. We benchmarked BLUCK using 6 proprietary and 3 open-source LLMs - including GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro, Llama-3.3-70B-Instruct, and DeepSeekV3. Our results show that while these models perform reasonably well overall, they, however, struggles in some areas of Bengali phonetics. Although current LLMs' performance on Bengali cultural and linguistic contexts is still not comparable to that of mainstream languages like English, our results indicate Bengali's status as a mid-resource language. Importantly, BLUCK is also the first MCQ-based evaluation benchmark that is centered around native Bengali culture, history, and linguistics.
- Abstract(参考訳): 本研究では,ベンガル語言語理解と文化知識におけるLarge Language Models (LLM) の性能を測定するために設計された新しいデータセットであるBLUCKを紹介する。
本データセットは, バングラデシュの文化や歴史, ベンガル語学に関する知識を網羅した23のカテゴリを対象とし, 大学・職種試験の収集から慎重に収集した2366の多票質問(MCQ)からなる。
GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.3-70B-Instruct、DeepSeekV3を含む6つのプロプライエタリおよび3つのオープンソースLCMを用いてBLUCKをベンチマークした。
以上の結果から,ベンガル語音声学のいくつかの分野では,これらのモデルが全体としては合理的に良好に機能していることが示唆された。
現在のベンガル語の文化的・言語的文脈におけるLLMのパフォーマンスは、英語のような主流言語に匹敵するものではないが、我々の結果は、ベンガル語がミッドリソース言語としての地位にあることを示している。
重要な点として、BLUCKは、ベンガル人文化、歴史、言語学を中心としたMCQベースの最初の評価ベンチマークである。
関連論文リスト
- BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。
データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。
我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2025-05-25T02:54:31Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English [18.217122567176585]
バングラデシュの中・高校生を対象に,ベンガル語と英語の同時試験質問からなるデータセットBEnQAを紹介した。
我々のデータセットは, 事実, 応用, 推論に基づく質問など, さまざまなタイプの質問を科学の複数の被験者にカバーする約5Kの質問で構成されている。
並列データセットを用いて複数のLarge Language Model (LLM) をベンチマークし、ベンガル語と英語のモデルの顕著な性能格差を観察する。
論文 参考訳(メタデータ) (2024-03-16T11:27:42Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP [17.362068473064717]
大規模言語モデル(LLM)は、NLPにおいて最も重要なブレークスルーの1つである。
本稿では,ベンガル語での性能をベンチマークするために,LLMを総合的に評価するBenLLM-Evalを紹介する。
実験の結果、ベンガルのNLPタスクではゼロショットLLMは、現在のSOTA微調整モデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-09-22T20:29:34Z) - BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models [0.06597195879147556]
BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
論文 参考訳(メタデータ) (2023-09-12T09:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。