論文の概要: Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
- arxiv url: http://arxiv.org/abs/2507.01853v2
- Date: Mon, 07 Jul 2025 04:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 13:42:26.907077
- Title: Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
- Title(参考訳): Eka-Eval : インド言語における大規模言語モデルのための総合的評価フレームワーク
- Authors: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh,
- Abstract要約: EKA-evalは、9つの主要な評価カテゴリに35以上のベンチマークを統合する統合評価フレームワークである。
モジュールアーキテクチャによる11のコア機能、Hugging Faceとプロプライエタリなモデルとのシームレスな統合、プラグインとプレイのユーザビリティを提供する。
フレームワークはオープンソースで、https://github.com/lingo-iitgn/eka-eval.comで公開されている。
- 参考スコア(独自算出の注目度): 1.1957520154275776
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has intensified the need for evaluation frameworks that address the requirements of linguistically diverse regions, such as India, and go beyond English-centric benchmarks. We introduce EKA-EVAL, a unified evaluation framework that integrates over 35+ benchmarks (including 10 Indic benchmarks) across nine major evaluation categories. The framework provides broader coverage than existing Indian language evaluation tools, offering 11 core capabilities through a modular architecture, seamless integration with Hugging Face and proprietary models, and plug-and-play usability. As the first end-to-end suite for scalable, multilingual LLM benchmarking, the framework combines extensive benchmarks, modular workflows, and dedicated support for low-resource Indian languages to enable inclusive assessment of LLM capabilities across diverse domains. We conducted extensive comparisons against five existing baselines, demonstrating that EKA-EVAL achieves the highest participant ratings in four out of five categories. The framework is open-source and publicly available at: https://github.com/lingo-iitgn/eka-eval.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、インドのような言語的に多様な地域の要求に対処し、英語中心のベンチマークを超える評価フレームワークの必要性が高まっている。
EKA-EVALは35以上のベンチマーク(インデックスベンチマークを含む)を9つの主要な評価カテゴリに統合する統合評価フレームワークである。
このフレームワークは、既存のインドの言語評価ツールよりも広範な範囲を提供し、モジュールアーキテクチャによる11のコア機能、Hugging Faceとプロプライエタリなモデルとのシームレスな統合、プラグイン・アンド・プレイのユーザビリティを提供する。
スケーラブルでマルチリンガルなLLMベンチマークのための最初のエンドツーエンドスイートとして、このフレームワークは広範なベンチマーク、モジュール化されたワークフロー、低リソースのインドの言語への専用のサポートを組み合わせることで、さまざまなドメインにわたるLLM機能の包括的評価を可能にしている。
EKA-EVALが5つのカテゴリーのうち4つで最高評価を達成していることを示すため,既存の5つのベースラインに対して広範囲に比較を行った。
フレームワークはオープンソースで、https://github.com/lingo-iitgn/eka-eval.comで公開されている。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。
IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-23T17:48:25Z) - MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation [13.440594349043916]
マルチリンガル・エンド・エンド・エンド・メタ評価RAGベンチマーク(MEMERAG)を開発した。
我々のベンチマークは,MIRACLデータセット上に構築されており,母国語質問を用いて多種多様な大言語モデル(LLM)による応答を生成する。
提案するベンチマークでは,高度なプロンプト技術とLCMによる改善を確実に識別できることが示されている。
論文 参考訳(メタデータ) (2025-02-24T13:58:42Z) - Analysis of Indic Language Capabilities in LLMs [0.3599866690398789]
本報告では,テキスト入力による大規模言語モデル(LLM)の性能評価を行い,Indic言語を理解・生成する。
ヒンディー語はモデルの中で最も広く表現されている言語である。
モデルパフォーマンスは、上位5言語の話者数と大まかに相関するが、その後の評価は様々である。
論文 参考訳(メタデータ) (2025-01-23T18:49:33Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。