論文の概要: ParamBench: A Graduate-Level Benchmark for Evaluating LLM Understanding on Indic Subjects
- arxiv url: http://arxiv.org/abs/2508.16185v1
- Date: Fri, 22 Aug 2025 07:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.302613
- Title: ParamBench: A Graduate-Level Benchmark for Evaluating LLM Understanding on Indic Subjects
- Title(参考訳): ParamBench: 学習科目におけるLLM理解の評価のための大学院レベルのベンチマーク
- Authors: Kaushal Sharma, Vivek Patel, Ayush Maheshwari, Aditya Maheshwari,
- Abstract要約: ヒンディー語で約11.5Kの質問から成るParamBenchについて,16の多様な被験者から回答を得た。
これらの質問は、主に、歴史、音楽、楽器、ヨガ、文学、哲学、法律など、特にインドにおける文脈について、全国レベルの入学試験から導かれる。
このベンチマークでは,Llama 3.3 70Bが48%の精度で,17以上のオープンソースLLMの性能を評価した。
- 参考スコア(独自算出の注目度): 4.2155105586549535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely evaluated on tasks such as comprehension, question answering, summarization, code generation, etc. However, their performance on graduate-level, culturally grounded questions in the Indian context remains largely unexplored. Existing Indian benchmarks emphasise basic fact-orientated queries that offer limited assessment of a deeper disciplinary understanding tailored to the Indian setting. In this paper, we present ParamBench, consisting of around 11.5K questions in Hindi language comprising questionnaires from 16 diverse subjects. These questions are primarily derived from nation-wide graduate level entrance examination covering topics such as history, music, instruments, yoga, literature, philosophy, law, etc., specifically for the Indian context. Additionally, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. We evaluated the performance of more than 17 open source LLMs on this benchmark, observing that Llama 3.3 70B attains the highest overall accuracy of 48%. Furthermore, subject-wise analysis indicates that even for the best performing LLMs, performance remains weak on topics such as music, classical instruments, politics and archaeology, underscoring persistent challenges in culturally grounded reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、理解、質問応答、要約、コード生成などのタスクで広く評価されている。
しかし、インドの文脈における、大学院レベルの文化的根拠のある質問に対する彼らのパフォーマンスは、ほとんど解明されていないままである。
既存のインドのベンチマークでは、インドの設定に合わせて深い学際的理解を限定的に評価する、基本的な事実指向のクエリを強調している。
本稿では,ヒンディー語における約11.5Kの質問から成るParamBenchについて紹介する。
これらの質問は、主に、歴史、音楽、楽器、ヨガ、文学、哲学、法律など、特にインドにおける文脈について、全国レベルの入学試験から導かれる。
さらに、リストベースのマッチング、アサーションとレアソンのペア、シーケンスの順序付けなど、様々な質問形式を扱うLLMの能力を評価する。
このベンチマークでは,Llama 3.3 70Bが48%の精度で,17以上のオープンソースLLMの性能を評価した。
さらに、主観的分析は、最高の演奏 LLM であっても、音楽、古典楽器、政治、考古学といったトピックではパフォーマンスが依然として弱く、文化的根拠のある推論において永続的な課題が強調されていることを示している。
関連論文リスト
- MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文 参考訳(メタデータ) (2025-07-23T12:56:31Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language? [3.4812080203308984]
ハヤム・チャレンジ(Khayyam Challenge、ペルシア語MMLU)は、ペルシアの試験から抽出された38の多様なタスクから得られた20,192の4つの質問のコレクションである。
Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
論文 参考訳(メタデータ) (2024-04-09T22:38:13Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。