論文の概要: IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages
- arxiv url: http://arxiv.org/abs/2404.16816v1
- Date: Thu, 25 Apr 2024 17:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 12:51:20.198196
- Title: IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages
- Title(参考訳): IndicGenBench: 言語におけるLLMの生成能力を評価するための多言語ベンチマーク
- Authors: Harman Singh, Nitish Gupta, Shikhar Bharadwaj, Dinesh Tewari, Partha Talukdar,
- Abstract要約: IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
- 参考スコア(独自算出の注目度): 12.514648269553104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) see increasing adoption across the globe, it is imperative for LLMs to be representative of the linguistic diversity of the world. India is a linguistically diverse country of 1.4 Billion people. To facilitate research on multilingual LLM evaluation, we release IndicGenBench - the largest benchmark for evaluating LLMs on user-facing generation tasks across a diverse set 29 of Indic languages covering 13 scripts and 4 language families. IndicGenBench is composed of diverse generation tasks like cross-lingual summarization, machine translation, and cross-lingual question answering. IndicGenBench extends existing benchmarks to many Indic languages through human curation providing multi-way parallel evaluation data for many under-represented Indic languages for the first time. We evaluate a wide range of proprietary and open-source LLMs including GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM and LLaMA on IndicGenBench in a variety of settings. The largest PaLM-2 models performs the best on most tasks, however, there is a significant performance gap in all languages compared to English showing that further research is needed for the development of more inclusive multilingual language models. IndicGenBench is released at www.github.com/google-research-datasets/indic-gen-bench
- Abstract(参考訳): 大規模言語モデル(LLM)が世界中で普及するにつれて、LLMは世界の言語多様性を表現することが不可欠である。
インドは14億人の言語的に多様である。
IndicGenBenchは、13のスクリプトと4つの言語ファミリーをカバーする多言語言語29の多言語からなるユーザ向け生成タスクにおいて、LLMを評価するための最大のベンチマークである。
IndicGenBenchは、言語間要約、機械翻訳、言語間質問応答など、さまざまな生成タスクで構成されている。
IndicGenBenchは、人間のキュレーションを通じて既存のベンチマークを多くのIndic言語に拡張し、非表現のIndic言語で初めてマルチウェイ並列評価データを提供する。
我々は,IndicGenBench 上で GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM, LLaMA など,プロプライエタリかつオープンソースな LLM を多種多様な設定で評価した。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して、より包括的な多言語言語モデルの開発にはさらなる研究が必要であることを示している。
IndicGenBenchはwww.github.com/google-research-datasets/indic-gen-benchでリリースされた。
関連論文リスト
- Hire a Linguist!: Learning Endangered Languages with In-Context
Linguistic Descriptions [52.95579788485411]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。
GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。
GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T03:44:01Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.972947286843729]
MELAは、言語受容性に関する最初の多言語ベンチマークであり、10言語をカバーする48Kの判断である。
多言語解釈可能性の追求において, 微調整XLM-Rの重み解析を行った。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容性に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Towards Leaving No Indic Language Behind: Building Monolingual Corpora,
Benchmark and Models for Indic Languages [19.91781398526369]
3つの重要な軸に沿ってコントリビューションを行うことで、Indic言語のNLU機能を改善することを目指している。
具体的には、4つの言語ファミリーの24言語をカバーする20.9Bトークンで、最大のモノリンガルコーパスであるIndicCorpをキュレートする。
我々は、20言語をカバーする9つの異なるNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。
言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、そのうち52が新たな文献への貢献である。
論文 参考訳(メタデータ) (2022-12-11T04:45:50Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。