論文の概要: Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis
- arxiv url: http://arxiv.org/abs/2508.19831v1
- Date: Wed, 27 Aug 2025 12:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.625696
- Title: Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis
- Title(参考訳): Hindi LLMsのベンチマーク: データセットの新しいスイートと比較分析
- Authors: Anusha Kamath, Kanishk Singla, Rakesh Paul, Raviraj Joshi, Utkarsh Vaidya, Sanjay Singh Chauhan, Niranjan Wartikar,
- Abstract要約: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hiの5つのHindi評価データセット群を紹介する。
これらは、intra-scratch Humanアノテーションとtranslate-and-verifyプロセスを組み合わせた方法論を用いて作成された。
- 参考スコア(独自算出の注目度): 3.9680588541743718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating instruction-tuned Large Language Models (LLMs) in Hindi is challenging due to a lack of high-quality benchmarks, as direct translation of English datasets fails to capture crucial linguistic and cultural nuances. To address this, we introduce a suite of five Hindi LLM evaluation datasets: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, and BFCL-Hi. These were created using a methodology that combines from-scratch human annotation with a translate-and-verify process. We leverage this suite to conduct an extensive benchmarking of open-source LLMs supporting Hindi, providing a detailed comparative analysis of their current capabilities. Our curation process also serves as a replicable methodology for developing benchmarks in other low-resource languages.
- Abstract(参考訳): ヒンディー語における命令調整型大規模言語モデル(LLM)の評価は、英語データセットの直接翻訳が重要な言語的・文化的ニュアンスを捉えるのに失敗するため、高品質なベンチマークが欠如しているため困難である。
IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hiという5つのHindi LLM評価データセット群を紹介する。
これらは、intra-scratch Humanアノテーションとtranslate-and-verifyプロセスを組み合わせた方法論を用いて作成された。
このスイートを活用して,Hindi をサポートするオープンソース LLM の広範なベンチマークを行い,その機能に関する詳細な比較分析を行う。
我々のキュレーションプロセスは、他の低リソース言語でベンチマークを開発するためのレプリケートな方法論としても機能します。
関連論文リスト
- IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems [17.88837706307504]
IndicMSMarcoは13のインドの言語における検索品質と応答生成を評価するための多言語ベンチマークである。
我々は、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)データセットを構築した。
論文 参考訳(メタデータ) (2025-06-02T12:55:51Z) - Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance [1.1784026260358966]
我々はヒンディー語、マラティー語、ベンガル語に着目し、地域言語処理のためのSLMを評価し、言語的複雑さを理解する。
分析の結果,言語固有のトークンーザはインドの言語に対して汎用的なトークンーよりも優れていた。
これらの知見は、SLMの未保存言語への実践的応用と、我々のニューラルネットワーク開発に関する理論的理解の両方を前進させる。
論文 参考訳(メタデータ) (2025-04-07T10:33:14Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi [8.21020989074456]
進行中の研究にもかかわらず、ヒンディー語で検索モデルを評価するための包括的なベンチマークが欠如している。
我々は、ヒンディー語に翻訳された英語のBEIRデータセットのサブセット、既存のヒンディー語検索データセット、検索用の合成データセットを含むBEIRベンチマークのヒンディー語版を紹介する。
本ベンチマークでは,タスクやドメイン固有の課題の特定と検索性能への影響を明らかにするため,最先端の多言語検索モデルの評価を行う。
論文 参考訳(メタデータ) (2024-08-18T10:55:04Z) - Suvach -- Generated Hindi QA benchmark [0.0]
本稿では,Hindi EQAモデルの評価に特化して設計された新しいベンチマークを提案する。
この手法は,大規模言語モデル(LLM)を利用して,抽出条件下で高品質なデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-30T04:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。