論文の概要: IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
- arxiv url: http://arxiv.org/abs/2512.00333v1
- Date: Sat, 29 Nov 2025 05:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.175901
- Title: IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
- Title(参考訳): IndicParam:低リソースのインデックス言語上でのLCMの評価ベンチマーク
- Authors: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari,
- Abstract要約: IndicParamは、11のIndic言語をカバーする13,000以上の多重選択質問の人為的なベンチマークである。
我々は、プロプライエタリおよびオープンウェイトの両方で19個のLCMを評価し、最高性能のGPT-5でさえ平均精度は45.0%であることを示した。
IndicParamは、言語間転送の制限に関する洞察を提供し、Indic言語のための挑戦的なベンチマークを確立する。
- 参考スコア(独自算出の注目度): 4.2155105586549535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.
- Abstract(参考訳): 大規模言語モデルは多言語タスクにおいて優れているが、低リソースと極低リソースのIndic言語は依然として過小評価されている。
IndicParamは、11の言語(Nepali、Gujarati、Marathi、Odia、Dogri、Maithili、Rajasthani、Sanskrit、Bodo、Santali、Konkani)とSanskrit- English code-mixed set(サンスクリット・コード-ミキシング・セット)をカバーする13,000以上の多重選択質問の人為的なベンチマークである。
我々は、プロプライエタリおよびオープンウェイトの両方で19個のLCMを評価し、最高性能のGPT-5でさえ平均精度は45.0%に達し、DeepSeek-3.2 (43.1) と Claude-4.5 (42.7) が続いた。
さらに,各質問を知識指向あるいは純粋言語としてラベル付けし,文法的習熟度から事実的想起を識別する。
さらに、リストベースのマッチング、アサーションとレアソンのペア、シーケンスの順序付けなど、様々な質問形式を扱うLLMの能力を評価する。
IndicParamは、言語間転送の制限に関する洞察を提供し、Indic言語のための挑戦的なベンチマークを確立する。
データセットはhttps://huggingface.co/datasets/bharatgenai/IndicParamで公開されている。
ベンチマークを実行するスクリプトはhttps://github.com/ayushbits/IndicParamにある。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。