Fugu-MT 論文翻訳(概要): ParamBench: A Graduate-Level Benchmark for Evaluating LLM Understanding on Indic Subjects

論文の概要: ParamBench: A Graduate-Level Benchmark for Evaluating LLM Understanding on Indic Subjects

arxiv url: http://arxiv.org/abs/2508.16185v2
Date: Wed, 08 Oct 2025 17:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 14:21:18.102476
Title: ParamBench: A Graduate-Level Benchmark for Evaluating LLM Understanding on Indic Subjects
Title（参考訳）: ParamBench: 学習科目におけるLLM理解の評価のための大学院レベルのベンチマーク
Authors: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari,
Abstract要約: 我々は,ヒンディー語で17K以上の質問からなるParamBenchについて,21の多様な被験者の質問紙から回答を得た。これらの質問は、主に歴史、音楽、楽器、ヨガ、プッシュ、文学、哲学、法律などに関する全国レベルの入学試験から導かれる。このベンチマークで16以上のオープンソースLLMの性能を評価し,Gemma3-27Bが56.4%の精度で最高であることを確認した。
参考スコア（独自算出の注目度）: 4.2155105586549535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have been widely evaluated on tasks such as comprehension, summarization, code generation, etc. However, their performance on graduate-level, culturally grounded questions in the Indian context remains largely unexplored. Existing Indian benchmarks emphasise basic fact-orientated queries that offer limited assessment of a deeper disciplinary understanding tailored to the Indian setting. In this paper, we present ParamBench, consisting of more than 17K questions in the Hindi language, comprising questionnaires from 21 diverse subjects. These questions are primarily derived from a nationwide graduate-level entrance examination covering topics such as history, music, instruments, yoga, literature, philosophy, law, etc.~ specifically for the Indian context. Additionally, we assess the ability of LLMs to handle diverse question formats - such as list-based matching, assertion-reason pairs, and sequence ordering - alongside conventional multiple-choice questions. We evaluated the performance of more than 16 open source LLMs on this benchmark, observing that Gemma3-27B attains the highest overall accuracy of 56.4\%. Furthermore, subject-wise analysis indicates that even for the best-performing LLMs, performance remains weak on topics such as music, classical instruments, and law, underscoring persistent challenges in culturally grounded reasoning. The dataset and source code is present at https://github.com/ayushbits/ParamBench.
Abstract（参考訳）: 大規模な言語モデルは、理解、要約、コード生成などのタスクで広く評価されている。しかし、インドの文脈における、大学院レベルの文化的根拠のある質問に対する彼らのパフォーマンスは、ほとんど解明されていないままである。既存のインドのベンチマークでは、インドの設定に合わせて深い学際的理解を限定的に評価する、基本的な事実指向のクエリを強調している。本稿では,ヒンディー語における17K以上の質問から成るParamBenchについて紹介する。これらの質問は、主に歴史、音楽、楽器、ヨガ、文学、哲学、法律などに関する全国レベルの入学試験から導かれる。特にインドの文脈について。さらに、リストベースのマッチング、アサーションとレアソンのペア、シーケンスの順序付けといった多様な質問形式を、従来の複数選択の質問と共に扱えるように評価する。本ベンチマークでは, Gemma3-27Bが56.4\%の精度で, 16 以上のオープンソース LLM の性能評価を行った。さらに、主観的分析は、最高の性能のLCMであっても、音楽、古典楽器、法律などのトピックではパフォーマンスが依然として弱く、文化的根拠のある推論において永続的な課題が強調されていることを示している。データセットとソースコードはhttps://github.com/ayushbits/ParamBench.orgにある。

関連論文リスト

OmniEduBench: A Comprehensive Chinese Benchmark for Evaluating Large Language Models in Education [72.40048732210055]
中国の総合的な教育ベンチマークであるOmniEduBenchを紹介する。データは、知識次元と栽培次元の2つの中核次元に分けられる。データセットには、11の一般的な試験質問タイプを含む、さまざまな質問形式がある。
論文参考訳（メタデータ） (2025-10-30T12:16:29Z)
BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context [36.56689822791777]
Bias Benchmark for Question Answering (BBQ)のような既存のベンチマークは主に西洋の文脈に焦点を当てている。 BharatBBQは、ヒンディー語、英語、マラティー語、ベンガル語、タミル語、テルグ語、オディア語、アッサム語のバイアスを評価するために設計された、文化的に適応したベンチマークである。我々のデータセットは1つの言語で49,108のサンプルを含み、翻訳と検証によって拡張され、8つの言語で392,864のサンプルとなる。
論文参考訳（メタデータ） (2025-08-09T20:24:24Z)
MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文参考訳（メタデータ） (2025-05-25T02:54:31Z)
LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文参考訳（メタデータ） (2025-05-19T08:48:12Z)
MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文参考訳（メタデータ） (2024-11-04T19:17:17Z)
TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文参考訳（メタデータ） (2024-07-17T08:28:55Z)
CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文参考訳（メタデータ） (2024-06-25T17:45:26Z)
Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language? [3.4812080203308984]
ハヤム・チャレンジ(Khayyam Challenge、ペルシア語MMLU)は、ペルシアの試験から抽出された38の多様なタスクから得られた20,192の4つの質問のコレクションである。 Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
論文参考訳（メタデータ） (2024-04-09T22:38:13Z)
LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文参考訳（メタデータ） (2024-03-19T10:11:14Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。