Fugu-MT 論文翻訳(概要): Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages

論文の概要: Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages

arxiv url: http://arxiv.org/abs/2507.01853v1
Date: Wed, 02 Jul 2025 16:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.374882
Title: Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
Title（参考訳）: Eka-Eval : インド言語における大規模言語モデルのための総合的評価フレームワーク
Authors: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh,
Abstract要約: EKA-evalは35以上のベンチマークを統合した,統一的で実運用可能な評価フレームワークである。既存のインドの言語評価ツールと比較して、EKA-evalはより広範なベンチマークカバレッジを提供する。我々は,EKA-evalをグローバルLLMとIndicLLMの両方に合わせた,最初のエンドツーエンド評価スイートとして位置づけた。
参考スコア（独自算出の注目度）: 1.1957520154275776
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The rapid advancement of Large Language Models (LLMs) has intensified the need for evaluation frameworks that go beyond English centric benchmarks and address the requirements of linguistically diverse regions such as India. We present EKA-EVAL, a unified and production-ready evaluation framework that integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning categories like reasoning, mathematics, tool use, long-context understanding, and reading comprehension. Compared to existing Indian language evaluation tools, EKA-EVAL offers broader benchmark coverage, with built-in support for distributed inference, quantization, and multi-GPU usage. Our systematic comparison positions EKA-EVAL as the first end-to-end, extensible evaluation suite tailored for both global and Indic LLMs, significantly lowering the barrier to multilingual benchmarking. The framework is open-source and publicly available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA initiative (https://eka.soket.ai), which aims to scale up to over 100 benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩により、英語中心のベンチマークを超えて、インドのような言語的に多様な地域の要求に対処する評価フレームワークの必要性が高まっている。 EKA-EVALは35以上のベンチマークを統合した,統一的で実運用可能な評価フレームワークである。既存のインドの言語評価ツールと比較して、EKA-EVALはより広範なベンチマークカバレッジを提供し、分散推論、量子化、マルチGPUの利用をサポートする。系統比較では,EKA-EVALをグローバルLLMとインディックスLLMの両方に適した,エンドツーエンドで拡張可能な評価スイートとして位置づけ,多言語ベンチマークの障壁を著しく低減した。フレームワークはオープンソースで公開されており、https://github.com/lingo-iitgn/eka-evalで公開されている。EKAイニシアチブ(https://eka.soket.ai)の一部として、100以上のベンチマークをスケールアップし、LLMの堅牢で多言語的な評価エコシステムを確立することを目的としている。

関連論文リスト

PARAM-1 BharatGen 2.9B Model [14.552007884700618]
PARAM-1は2.9Bパラメータデコーダのみのテキストのみの言語モデルである。 25%のコーパス割り当てによるIndic言語の公平な表現、インドの形態的構造に適合したSentencePieceトークン化によるトークン化公正性、IndicQA全体にわたる文化的に整合した評価ベンチマーク、コード混合推論、社会言語的堅牢性タスクである。
論文参考訳（メタデータ） (2025-07-16T06:14:33Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。 IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。 1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文参考訳（メタデータ） (2025-04-23T17:48:25Z)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation [13.440594349043916]
マルチリンガル・エンド・エンド・エンド・メタ評価RAGベンチマーク(MEMERAG)を開発した。我々のベンチマークは,MIRACLデータセット上に構築されており,母国語質問を用いて多種多様な大言語モデル(LLM)による応答を生成する。提案するベンチマークでは,高度なプロンプト技術とLCMによる改善を確実に識別できることが示されている。
論文参考訳（メタデータ） (2025-02-24T13:58:42Z)
MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。 MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文参考訳（メタデータ） (2025-02-19T10:13:43Z)
Analysis of Indic Language Capabilities in LLMs [0.3599866690398789]
本報告では,テキスト入力による大規模言語モデル(LLM)の性能評価を行い,Indic言語を理解・生成する。ヒンディー語はモデルの中で最も広く表現されている言語である。モデルパフォーマンスは、上位5言語の話者数と大まかに相関するが、その後の評価は様々である。
論文参考訳（メタデータ） (2025-01-23T18:49:33Z)
L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文参考訳（メタデータ） (2024-09-13T10:48:35Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文参考訳（メタデータ） (2023-09-15T14:52:23Z)
Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR [14.15737970309719]
IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。 IndicWhisperは59ベンチマーク中39ベンチマークで最低のWERを持ち、平均で4.1 WERである。すべてのデータセット、コード、モデルをオープンソースにしています。
論文参考訳（メタデータ） (2023-05-24T17:46:03Z)
SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文参考訳（メタデータ） (2023-05-22T16:25:07Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文参考訳（メタデータ） (2021-12-27T11:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。